apache carbondata 详情
来源:从大数据说起     阅读:690
牛牛兔源码
发布于 2018-08-21 23:09
查看主页
apache carbondata 详情

Carbondata是华为开发的一种大数据场景下的列式存储格式,目前是apache社区的顶级项目。CarbonData是一个高性能的数据处理方案,目标是实现一份数据支持多种分析场景,包括BI分析,即席SQL查询,明细数据分析,流式分析等。CarbonData已经部署在许多企业生产环境中,例如一个规模较大的场景,支持单个表5PB数据(超过10万亿条记录)上明细数据分析,响应时间小于3秒!

相比parquet和orc的列式存储,Carbondata的优势在于:

  • 数据排序上,Carbondata不局限于单个row group(blocklet)内
  • MDK+invert index实现多列,行级别的索引
  • 全局字典+惰性转换,能够实现在排序,聚合之后进行字典到数据的转换。
apache carbondata 详情

Carbondata底层的每一个存储单元称为一个blocklet,对应于parquet的一个row group。每个blocklet内按列分为多个Column Chunk。carbondata引入了ColumnGroup Chunk支持行存,在一个ColumnGroup内将多个列按行组织存储。在ColumnGroup外部,整个ColumnGroup视为一列与其余ColumnChunk混合存储在同一Blocklet内部。

免责声明:本文为用户发表,不代表网站立场,仅供参考,不构成引导等用途。 系统环境 服务器应用
相关推荐
【阿里巴巴】毕业两年的阿里学长前台秋招经验分享
VirtualBox虚拟机Linux CentOS 7连外网小记
一文带你学会AQS和并发工具类的关系
IO模型演进变化史:使用libevent和libev
超实用git命令
首页
搜索
订单
购物车
我的