加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储

发布时间:2021-02-25 21:29:53 所属栏目:大数据 来源:网络整理
导读:本文一共分为上下两部门。我们将针对大数据开源器材差异的用处来举办分类,而且附上了官网和部门下载链接,但愿能给做大数据的伴侣做个参考。下面是第一部门。 查询引擎 一、Phoenix 孝顺者::Salesforce 简介:这是一个Java中间层,可以闪开拓者在Apache H
副问题[/!--empirenews.page--]

本文一共分为上下两部门。我们将针对大数据开源器材差异的用处来举办分类,而且附上了官网和部门下载链接,但愿能给做大数据的伴侣做个参考。下面是第一部门。


查询引擎

一、Phoenix

孝顺者::Salesforce

简介:这是一个Java中间层,可以闪开拓者在Apache HBase上执行SQL查询。Phoenix完全行使Java编写,代码位于GitHub上,而且提供了一个客户端可嵌入的JDBC驱动。

Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以天生尺度的JDBC功效集。直接行使HBase API、协同处理赏罚器与自界说过滤器,对付简朴查询来说,其机能量级是毫秒,对付百万级此生手数来说,其机能量级是秒。

Phoenix最值得存眷的一些特征有:

?嵌入式的JDBC驱动,实现了大部门的java.sql接口,包罗元数据API
?可以通过多部行键或是键/值单位对罗列办建模
?完美的查询支持,可以行使多个谓词以及优化的扫描键
?DDL支持:通过CREATE TABLE、DROP TABLE及ALTER TABLE来添加/删除列
?版本化的模式客栈:当写入数据时,快照查询会行使适当的模式
?DML支持:用于逐行插入的UPSERT VALUES、用于沟通或差异表之间大量数据传输的UPSERT ?SELECT、用于删除行的DELETE
?通过客户端的批处理赏罚实现的有限的事宜支持
?单表——还没有毗连,同时二级索引也在开拓傍边
?紧跟ANSI SQL尺度

Phoenix官方网站>>>

二、Stinger

孝顺者::Hortonworks

简介:原叫Tez,下一代Hive,Hortonworks主导开拓,运行在YARN上的DAG计较框架。

某些测试下,Stinger能晋升10倍阁下的机能,同时会让Hive支持更多的SQL,其首要利益包罗:

?让用户在Hadoop得到更多的查询匹配。个中包罗相同OVER的字句说明成果,支持WHERE查询,让Hive的样式体系更切合SQL模子。

?优化了Hive哀求执行打算,优化后哀求时刻镌汰90%。窜改了Hive执行引擎,增进单Hive使命的被秒处理赏罚记录数。

?在Hive社区中引入了新的列式文件名目(如ORC文件),提供一种更当代、高效和高机能的方法来储存Hive数据。

?引入了新的运行时框架——Tez,旨在消除Hive的延时和吞吐量限定。Tez通过消除不须要的task、障碍同步和对HDFS的读写功课来优化Hive job。这将优化Hadoop内部的执行链,彻底加快Hive负载处理赏罚。

Stinger官方网站>>>

三、Presto

孝顺者::Facebook

简介:Facebook开源的数据查询引擎Presto ,可对250PB以上的数据举办快速地交互式说明。该项目始于 2012 年秋季开始开拓,今朝该项目已经在高出 1000 名 Facebook 雇员中行使,运行高出 30000 个查询,逐日数据在 1PB 级别。Facebook 称 Presto 的机能比诸如 Hive 和 Map*Reduce 要好上 10 倍有多。

Presto 当前支持 ANSI SQL 的大大都殊效,包罗连系查询、阁下联接、子查询以及一些聚合和计较函数;支持近似截然差异的计数(DISTINCT COUNT)等。

github源代码下载>>>

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储

四、Shark

简介:Shark即Hive on Spark,本质上是通过Hive的HQL理会,把HQL翻译成Spark上的RDD操纵,然后通过Hive的metadata获取数据库里的表信息,现实HDFS上的数据和文件,会由Shark获取并放到Spark上运算。Shark的特点就是快,完全兼容Hive,且可以在shell模式下行使rdd2sql()这样的API,把HQL获得的功效集,继承在scala情形下运算,支持本身编写简朴的呆板进修或简朴说明处理赏罚函数,对HQL功效进一步说明计较。

?Shark速率快的缘故起因除了Spark平台提供的基于内存迭代计较外,在计划上还存在对Spark长举办了必然的改革,首要有

?partial DAG execution:对join优化,调理并行粒度,由于Spark自己的宽依靠和窄依靠会影响并行计较和速率

基于列的压缩和存储:把HQL表数据按列存,每列是一个array,存在JVM上,停止了JVM GC低效,而压缩息争压相干的技能是Yahoo!提供的。

结来说,Shark是一个插件式的对象,在我现有的Spark和Hive及hadoop-client之间,在这两套都可用的环境下,Shark只要获取Hive的设置(尚有metastore和exec等要害包),Spark的路径,Shark就能操作Hive和Spark,把HQL理会成RDD的转换,把数据取到Spark上运算和说明。在SQL on Hadoop这块,Shark有别于Impala,Stringer,而这些体系各有本身的计划思绪,相对付对MR举办优化和改造的思绪,Shark的思绪越发简朴明白些。

Shark官方网站>>>

五、Pig

简介:Pig是一种编程说话,它简化了Hadoop常见的事变使命。Pig可加载数据、表达转换数据以及存储最终功效。Pig内置的操纵使得半布局化数据变得故意义(如日记文件)。同时Pig可扩展行使Java中添加的自界说数据范例并支持数据转换。

Pig最大的浸染就是对mapreduce算法(框架)实现了一套shell剧本 ,相同我们凡是认识的SQL语句,在Pig中称之为Pig Latin,在这套剧本中我们可以对加载出来的数据举办排序、过滤、求和、分组(group by)、关联(Joining),Pig也可以由用户自界说一些函数对数据集举办操纵,也就是传说中的UDF(user-defined functions)。

Pig官方网站>>>

六、Cloudera?Impala

孝顺者::Cloudera

简介:Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速,交互式的SQL查询。除了行使沟通的存储平台外, Impala和Apache Hive一样也行使了沟通的元数据,SQL语法(Hive SQL),ODBC驱动和用户接口(Hue Beeswax),这就很利便的为用户提供了一个相似而且同一的平台来举办批量或及时查询。

Cloudera Impala 是用来举办大数据查询的增补器材。 Impala 并没有代替像Hive这样基于MapReduce的漫衍式处理赏罚框架。Hive和其余基于MapReduce的计较框架很是得当长时刻运行的批处理赏罚功课,譬喻那些涉及到批量 Extract、Transform、Load ,即必要举办ETL功课。

Impala 提供了:

?数据科学家或数据说明师已经熟知的SQL接口

?可以或许在Apache Hadoop 的大数据中举办交互式数据查询

? Single system for big data processing and analytics so customers can avoid costly modeling and ETL just for analytics

Cloudera?Impala官方网站>>>

七、Apache?Drill

孝顺者::MapR

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读