百分点大数据评测报告:开源OLAP引擎综评(HAWQ、Presto、ClickHouse)
副问题[/!--empirenews.page--]
谈到大数据就会遐想到Hadoop、Spark整个生态的技能栈。各人都知道开源大数据组件种类浩瀚,个中开源OLAP引擎包括Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等。当前企业对大数据的研究与应用日趋理性,那么,怎样按照营业特点,选择一个得当自身场景的查询引擎呢? 百分点在某国度级项目中包袱了日增超5000亿级的数据处理赏罚与说明使命,集群的总数据量已靠近百万亿。本陈诉团结百分点在项目中的营业场景,对HAWQ、Presto、ClickHouse做了综合评测,供各人参考。 一、测试整体方案
B.差异名目下的数据查询手段。 C.特命名目下的HAWQ、Presto、ClickHouse查询手段横向比拟。 二、测试组件先容 1.HAWQ HAWQ是Hadoop原生SQL查询引擎,团结了MPP数据库的要害技能上风和Hadoop的可扩展性、便捷性,以及ANSI SQL 尺度的支持;具有 MPP(大局限并行处理赏罚体系)的机能,比Hadoop生态圈里的其余SQL 引擎快数倍;具有很是成熟的并行优化器等。 2.Presto Presto是一个漫衍式的查询引擎,自己并不存储数据,可是可以接入多种数据源,而且支持跨数据源的级联查询。Presto是一个OLAP的器材,善于对海量数据举办伟大的说明。可是,对付OLTP场景,并不是Presto所善于,以是不要把Presto当做数据库来行使。 3.ClickHouse ClickHouse是“战斗民族”俄罗斯搜刮巨头Yandex公司开源的一个极具"战斗力"的及时数据说明数据库,是面向 OLAP 的漫衍式列式DBMS,圈内人戏称为“喀秋莎数据库”。ClickHouse有一个简称"CK",与Hadoop、Spark这些巨无霸组件对比,ClickHouse很轻量级,其特点包罗:漫衍式、列式存储、异步复制、线性扩展、支持数据压缩和最终数据同等性,其数据量级在PB级别。 三 、测试情形 1.处事器硬件设置大数据处事器:大数据收集加强型 d1ne 2.OLAP引擎情形 HAWQ情形 Presto情形 ClickHouse情形 3.测试数据 数据存放路径:/data1~12/iplog,一个盘20G,6台处事器每台都是240G,一共1440GB;每台处事器12个盘装载4个分区(小时)数据,每个盘装载4个分区的1/12的数据,4个文件,每个文件巨细5G,2500w笔记录,一笔记录200Byte。 4.测试SQL 测试挑选4个现实典范SQL,大抵如下: 四、测试进程 1.HAWQ存储名目与机能评测 颠末比拟测试后,思量数据的压缩比、数据的插入速率,以及查询时刻这三个维度综合评估,我们的场景保举HAWQ回收列式存储+Gzip5的压缩方法;假如各人对压缩没有很是高的要求,可以凭证测试的具体数据回收其余的组合方法。 HAWQ压缩测试留意事项:只有当orientation=parquet的时辰才气行使gzip举办压缩,orientation=row的时辰才气行使zlib举办压缩,snappy不支持配置压缩级别。 具体的评测数据及图片揭示如下文所示。 行式存储与压缩: HAWQ的插入方法是将数据写入CSV文件后,Load到HAWQ表中。本次评测的是数据Load的进程和最终压缩比。可以发明,zlib压缩级别到5往后,压缩比的低落就不那么明明晰。 测试明细: 功效图形展示: 行式存储查询机能: 测试明细: 功效图形展示: 列式存储与压缩: 测试明细: 功效图形展示: 列式存储查询机能: 测试明细: 2.Presto存储名目与机能评测 颠末比拟测试后,思量数据的压缩比、数据的插入速率,以及查询时刻这三个维度综合评估,我们的场景保举Presto回收LZ4+ORC方法。这个功效也与各公司回收的名目同等。 存储与压缩:
查询机能: (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |