百分点大数据评测报告：开源OLAP引擎综评（HAWQ、Presto、ClickHouse）

发布时间：2020-01-24 12:13:59 所属栏目：大数据来源：至顶网至顶Labs频道

导读：副问题#e# 谈到大数据就会遐想到Hadoop、Spark整个生态的技能栈。各人都知道开源大数据组件种类浩瀚，个中开源OLAP引擎包括Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等。当前企业对大数据的研究与应用日趋理性，那么，怎样按照营业特点，选

副问题[/!--empirenews.page--]

谈到大数据就会遐想到Hadoop、Spark整个生态的技能栈。各人都知道开源大数据组件种类浩瀚，个中开源OLAP引擎包括Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等。当前企业对大数据的研究与应用日趋理性，那么，怎样按照营业特点，选择一个得当自身场景的查询引擎呢？

百分点在某国度级项目中包袱了日增超5000亿级的数据处理赏罚与说明使命，集群的总数据量已靠近百万亿。本陈诉团结百分点在项目中的营业场景，对HAWQ、Presto、ClickHouse做了综合评测，供各人参考。

百分点大数据评测陈诉：开源OLAP引擎综评（HAWQ、Presto、ClickHouse）

一、测试整体方案
百分点面临的营业场景，主体是要办理超大局限数据集的Ad-Hoc查询题目，而且大多是单表查询场景。架构团队在此进程中选取了HAWQ、Presto、ClickHouse举办评测。评测中选取的数据集与SQL来自项目现实营业，我们必要评测维度首要如下：

A．数据在差异压缩名目下的压缩手段。

B．差异名目下的数据查询手段。

C．特命名目下的HAWQ、Presto、ClickHouse查询手段横向比拟。

二、测试组件先容

1.HAWQ

HAWQ是Hadoop原生SQL查询引擎，团结了MPP数据库的要害技能上风和Hadoop的可扩展性、便捷性，以及ANSI SQL 尺度的支持；具有 MPP（大局限并行处理赏罚体系）的机能，比Hadoop生态圈里的其余SQL 引擎快数倍；具有很是成熟的并行优化器等。

2.Presto

Presto是一个漫衍式的查询引擎，自己并不存储数据，可是可以接入多种数据源，而且支持跨数据源的级联查询。Presto是一个OLAP的器材，善于对海量数据举办伟大的说明。可是，对付OLTP场景，并不是Presto所善于，以是不要把Presto当做数据库来行使。
Presto必要从其他数据源获取数据来举办运算说明，它可以毗连多种数据源，包罗Hive、RDBMS（Mysql、Oracle、Tidb等）、Kafka、MongoDB、Redis等。

3.ClickHouse

ClickHouse是“战斗民族”俄罗斯搜刮巨头Yandex公司开源的一个极具"战斗力"的及时数据说明数据库，是面向 OLAP 的漫衍式列式DBMS，圈内人戏称为“喀秋莎数据库”。ClickHouse有一个简称"CK"，与Hadoop、Spark这些巨无霸组件对比，ClickHouse很轻量级，其特点包罗：漫衍式、列式存储、异步复制、线性扩展、支持数据压缩和最终数据同等性，其数据量级在PB级别。

三、测试情形

1.处事器硬件设置大数据处事器：大数据收集加强型 d1ne

百分点大数据评测陈诉：开源OLAP引擎综评（HAWQ、Presto、ClickHouse）