apache carbondata 详情

  • 时间:2018-07-18 23:12 作者:从大数据说起 来源:从大数据说起 阅读:58
  • 扫一扫,手机访问
摘要:Carbondata是华为开发的一种大数据场景下的列式存储格式,目前是apache社区的顶级项目。CarbonData是一个高性能的数据处理方案,目标是实现一份数据支持多种分析场景,包括BI分析,即席SQL查询,明细数据分析,流式分析等。CarbonData已经部署在许多企业生产环境中,例如一个规模
apache carbondata 详情

Carbondata是华为开发的一种大数据场景下的列式存储格式,目前是apache社区的顶级项目。CarbonData是一个高性能的数据处理方案,目标是实现一份数据支持多种分析场景,包括BI分析,即席SQL查询,明细数据分析,流式分析等。CarbonData已经部署在许多企业生产环境中,例如一个规模较大的场景,支持单个表5PB数据(超过10万亿条记录)上明细数据分析,响应时间小于3秒!

相比parquet和orc的列式存储,Carbondata的优势在于:

  • 数据排序上,Carbondata不局限于单个row group(blocklet)内
  • MDK+invert index实现多列,行级别的索引
  • 全局字典+惰性转换,能够实现在排序,聚合之后进行字典到数据的转换。
apache carbondata 详情

Carbondata底层的每一个存储单元称为一个blocklet,对应于parquet的一个row group。每个blocklet内按列分为多个Column Chunk。carbondata引入了ColumnGroup Chunk支持行存,在一个ColumnGroup内将多个列按行组织存储。在ColumnGroup外部,整个ColumnGroup视为一列与其余ColumnChunk混合存储在同一Blocklet内部。

  • 全部评论(0)
最新发布的资讯信息
【系统环境|服务器应用】PHP和Python实战bcrypt算法(2019-02-01 20:47)
【系统环境|服务器应用】PostgreSQL数据库安装Version10.5(2019-02-01 20:47)
【系统环境|服务器应用】Notepad++快速选中多行(2019-02-01 20:47)
【系统环境|服务器应用】Clover支持目录多标签页(2019-02-01 20:47)
【系统环境|服务器应用】计算机视觉 OpenCV Android | Mat像素操作(2019-02-01 20:46)
【系统环境|服务器应用】PHP | 运算符 知识梳理与运用实例(2019-02-01 20:46)
【系统环境|服务器应用】人工智能通识-数学-零基础矩阵运算(2019-02-01 20:46)
【系统环境|服务器应用】Android-打包AAR步骤以及最为关键的注意事项!(2019-02-01 20:46)
【系统环境|服务器应用】回转寿司你肯定吃过!——Android消息机制(构造)(2019-02-01 20:46)
【系统环境|服务器应用】Android中不规则形状View的布局实现(2019-02-01 20:46)
手机二维码手机访问领取大礼包
返回顶部