基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

存储 存储软件 Hadoop
CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。加米谷大数据转给大家参考学习。

[[264630]]

 CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与***的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。

一、评测环境

1)网络拓扑图

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

2)配置参数

Ø 服务器配置

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

二、性能对比

目前主流hadoop的文件存储格式有行存储的CSV格式,列式存储的ORC和Parquet等。本章给出的是Parquet+Spark和CarbonData+Spark在过滤查询场景和聚合计算场景的性能测试结果。

1)测试数据

创建沈阳社保的数据仓库,导入、集成1年的测试数据,如下表:

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

生成CarbonData格式文件,如下表:

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

2)过滤查询场景测试

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

Parquet和CarbonData在过滤查询场景下的性能对比

3)聚合计算场景测试

Parquet和CarbonData在聚合计算场景下的性能对比

4)总结分析

在过滤查询中,CarbonData的查询效率比parquet效率好,主要体现在列数据的索引查询,极大地提高了精确查询的性能。在聚合查询中,CarbonData通过使用全局字典编码来加快计算速度,这使得处理、查询引擎可以直接在编码好的数据上进行处理而不需要转换数据,数据只有在返回结果给用户的时候才转换成用户可读的形式,通过索引有效过滤文件数据块减少磁盘的IO,提高查询性能。

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

三、小结

CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与***的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。

责任编辑:武晓燕 来源: 今日头条
相关推荐

2018-07-03 08:33:04

Hadoop存储CarbonData

2017-06-15 10:21:30

Apache Hado存储引擎性能

2017-01-05 09:48:51

大数据数据格式生态

2016-12-20 16:40:13

CarbonData数据存储大数据

2023-03-29 11:11:42

2013-11-04 16:57:21

Hadoop大数据Hadoop生态系统

2022-01-06 18:21:00

Hadoop生态系统

2011-04-26 10:08:47

Linux存储生态环境

2011-12-09 11:02:52

NoSQL

2021-11-23 20:54:34

AI 生态系统

2013-05-27 10:01:33

HadoopHadoop系统

2015-06-08 12:44:58

大数据InterlAMPCamp

2018-03-19 15:17:37

Hadoop大数据数据

2019-01-13 15:00:52

区块链生态系统

2009-12-25 14:49:55

2022-06-08 14:49:32

F5NGINXAzure

2017-06-23 21:07:15

大数据HadoopHBase

2011-05-19 15:15:39

Oracle生态系统

2012-04-25 10:52:30

生态系统AppleGoogle

2015-04-01 11:23:23

点赞
收藏

51CTO技术栈公众号