加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

百分点大数据评测报告:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

发布时间:2020-01-24 12:13:59 所属栏目:大数据 来源:至顶网至顶Labs频道
导读:副问题#e# 谈到大数据就会遐想到Hadoop、Spark整个生态的技能栈。各人都知道开源大数据组件种类浩瀚,个中开源OLAP引擎包括Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等。当前企业对大数据的研究与应用日趋理性,那么,怎样按照营业特点,选
副问题[/!--empirenews.page--]

谈到大数据就会遐想到Hadoop、Spark整个生态的技能栈。各人都知道开源大数据组件种类浩瀚,个中开源OLAP引擎包括Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等。当前企业对大数据的研究与应用日趋理性,那么,怎样按照营业特点,选择一个得当自身场景的查询引擎呢?

百分点在某国度级项目中包袱了日增超5000亿级的数据处理赏罚与说明使命,集群的总数据量已靠近百万亿。本陈诉团结百分点在项目中的营业场景,对HAWQ、Presto、ClickHouse做了综合评测,供各人参考。

 百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

一、测试整体方案
百分点面临的营业场景,主体是要办理超大局限数据集的Ad-Hoc查询题目,而且大多是单表查询场景。架构团队在此进程中选取了HAWQ、Presto、ClickHouse举办评测。评测中选取的数据集与SQL来自项目现实营业,我们必要评测维度首要如下:


A.数据在差异压缩名目下的压缩手段。

B.差异名目下的数据查询手段。

C.特命名目下的HAWQ、Presto、ClickHouse查询手段横向比拟。 

二、测试组件先容

1.HAWQ

HAWQ是Hadoop原生SQL查询引擎,团结了MPP数据库的要害技能上风和Hadoop的可扩展性、便捷性,以及ANSI SQL 尺度的支持;具有 MPP(大局限并行处理赏罚体系)的机能,比Hadoop生态圈里的其余SQL 引擎快数倍;具有很是成熟的并行优化器等。 

2.Presto

Presto是一个漫衍式的查询引擎,自己并不存储数据,可是可以接入多种数据源,而且支持跨数据源的级联查询。Presto是一个OLAP的器材,善于对海量数据举办伟大的说明。可是,对付OLTP场景,并不是Presto所善于,以是不要把Presto当做数据库来行使。
Presto必要从其他数据源获取数据来举办运算说明,它可以毗连多种数据源,包罗Hive、RDBMS(Mysql、Oracle、Tidb等)、Kafka、MongoDB、Redis等。 

3.ClickHouse

ClickHouse是“战斗民族”俄罗斯搜刮巨头Yandex公司开源的一个极具"战斗力"的及时数据说明数据库,是面向 OLAP 的漫衍式列式DBMS,圈内人戏称为“喀秋莎数据库”。ClickHouse有一个简称"CK",与Hadoop、Spark这些巨无霸组件对比,ClickHouse很轻量级,其特点包罗:漫衍式、列式存储、异步复制、线性扩展、支持数据压缩和最终数据同等性,其数据量级在PB级别。

三 、测试情形

1.处事器硬件设置大数据处事器:大数据收集加强型 d1ne

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

2.OLAP引擎情形

HAWQ情形

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

Presto情形

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

ClickHouse情形 

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

3.测试数据 

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

数据存放路径:/data1~12/iplog,一个盘20G,6台处事器每台都是240G,一共1440GB;每台处事器12个盘装载4个分区(小时)数据,每个盘装载4个分区的1/12的数据,4个文件,每个文件巨细5G,2500w笔记录,一笔记录200Byte。 

4.测试SQL

测试挑选4个现实典范SQL,大抵如下: 

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

四、测试进程 1.HAWQ存储名目与机能评测

颠末比拟测试后,思量数据的压缩比、数据的插入速率,以及查询时刻这三个维度综合评估,我们的场景保举HAWQ回收列式存储+Gzip5的压缩方法;假如各人对压缩没有很是高的要求,可以凭证测试的具体数据回收其余的组合方法。 

HAWQ压缩测试留意事项:只有当orientation=parquet的时辰才气行使gzip举办压缩,orientation=row的时辰才气行使zlib举办压缩,snappy不支持配置压缩级别。

具体的评测数据及图片揭示如下文所示。 

行式存储与压缩:

HAWQ的插入方法是将数据写入CSV文件后,Load到HAWQ表中。本次评测的是数据Load的进程和最终压缩比。可以发明,zlib压缩级别到5往后,压缩比的低落就不那么明明晰。 

测试明细: 

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

功效图形展示: 

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

行式存储查询机能:

测试明细: 

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

功效图形展示:

 百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

列式存储与压缩:

测试明细:

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

功效图形展示:

 百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

列式存储查询机能:

测试明细:

 百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

 
功效图形展示:

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

2.Presto存储名目与机能评测 颠末比拟测试后,思量数据的压缩比、数据的插入速率,以及查询时刻这三个维度综合评估,我们的场景保举Presto回收LZ4+ORC方法。这个功效也与各公司回收的名目同等。

存储与压缩:


测试方法,通过CSV文件Load到Hive表,原始数据总量为1440GB。

 百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

查询机能:

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

百分点大数据评测陈诉:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)

 
3.查询比拟测试:HAWQ vs Presto vs ClickHouse

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读