81个开源大数据处理赏罚器材汇总（上），包罗查询引擎/流式计较/存储

发布时间：2021-02-25 21:29:53 所属栏目：大数据来源：网络整理

导读：本文一共分为上下两部门。我们将针对大数据开源器材差异的用处来举办分类，而且附上了官网和部门下载链接，但愿能给做大数据的伴侣做个参考。下面是第一部门。查询引擎一、Phoenix 孝顺者：：Salesforce 简介：这是一个Java中间层，可以闪开拓者在Apache H

简介：Apache Drill是是一个可以或许对大数据举办交互说明、开源的漫衍式体系，且基于Google Dremel实现，它可以或许运行在上千个节点的处事器集群上，且能在几秒内处理赏罚PB级可能万亿条的数据记录。Drill可以或许辅佐企业用户快速、高效地举办Hadoop数据查询和企业级大数据说明。Drill于2012年8月份由Apache推出。

从Drill官方对其架构的先容中得知，其具有适于及时的说明和快速的应用开拓、适于半布局化/嵌套数据的说明、兼容现有的SQL情形和Apache Hive等特性。其它，Drill的焦点模块是Drillbit处事，该处事模块包罗长途会见子模块、SQL理会器、查询优化器、使命打算执行引擎、存储插件接口（DFS、HBase、Hive等的接口）、漫衍式缓存模块等几部门，如下图所示：

Apache?Drill官方网站>>>

八、Apache?Tajo

简介：Apache Tajo项目标目标是在HDFS之上构建一个先辈的数据客栈体系。Tajo将本身标榜为一个“大数据客栈”，可是它仿佛和之前先容的那些低耽误查询引擎相同。固然它支持外部表和Hive数据集（通过HCatalog），可是它的重点是数据打点，提供低耽误的数据会见，以及为更传统的ETL提供器材。它也必要在数据节点上陈设Tajo特定的事变历程。

Tajo的成果包罗：

?ANSI SQL兼容
?JDBC 驱动
?集成Hive metastore可以或许会见Hive数据集
?一个呼吁行客户端
?一个自界说函数API

Apache?Tajo官方网站>>>

九、Hive

简介：hive是基于Hadoop的一个数据客栈器材，可以将布局化的数据文件映射为一张数据库表，并提供简朴的sql查询成果，可以将sql语句转换为MapReduce使命举办运行。其利益是进修本钱低，可以通过类SQL语句快速实现简朴的MapReduce统计，不必开拓专门的MapReduce应用，异常得当数据客栈的统计说明。

Hive官方网站>>>

流式计较

一、Facebook?Puma

孝顺者：Facebook

简介：及时数据流说明

二、Twitter Rainbird

孝顺者：Twitter

简介：Rainbird一款基于Zookeeper,Cassandra,Scribe,Thrift的漫衍式及时统计体系，这些基本组件的根基成果如下：

? Zookeeper，Hadoop子项目中的一款漫衍式和谐体系，用于节制漫衍式体系中各个组件中的同等性。

?Cassandra，NoSQL中一款很是精彩的产物，荟萃了Dynamo和Bigtable特征的漫衍式存储体系，用于存储必要举办统计的数据，统计数据，而且提供客户端举办统计数据的查询。（必要行使漫衍式Counter补丁CASSANDRA-1072）

??Scribe，Facebook开源的一款漫衍式日记网络体系，用于在体系中将各个必要统计的数据源网络到Cassandra中。

??Thrift，Facebook开源的一款跨说话C/S收集通讯框架，开拓职员基于这个框架可以等闲地开拓C/S应用。

用处

Rainbird可以用于及时数据的统计：

?统计网站中每一个页面，域名的点击次数

?内部体系的运行监控（统计被监控处事器的运行状态）

?记录最大值和最小值

81个开源大数据处理赏罚器材汇总（上），包罗查询引擎/流式计较/存储

三、Yahoo S4

孝顺者：Yahoo

简介：S4（Simple Scalable Streaming System）最初是Yahoo!为进步搜刮告白有用点击率的题目而开拓的一个平台，通过统计说明用户对告白的点击率，解除相干度低的告白，晋升点击率。今朝该项目刚启动不久，以是也可以领略为是他们提出的一个漫衍式流计较（Distributed Stream Computing）的模子。

S4的计划方针是：

·提供一种简朴的编程接口来处理赏罚数据流

·计一律个可以在平凡硬件之上可扩展的高可用集群。

·通过在每个处理赏罚节点行使当地内存，停止磁盘I/O瓶颈到达最小化耽误

·行使一个去中心的，对等架构；全部节点提供沟通的成果和职责。没有担负非凡责任的中心节点。这大大简化了陈设和维护。

·行使可插拔的架构，使计划尽也许的即通用又可定制化。

·友爱的计划理念，易于编程，具有机动的弹性

Yahoo S4官方网站>>>

四、Twitter?Storm

孝顺者：Twitter

简介：Storm是Twitter开源的一个相同于Hadoop的及时数据处理赏罚框架，它原本是由BackType开拓，后BackType被Twitter收购，将Storm作为Twitter的及时数据说明体系。

及时数据处理赏罚的应用场景很普及，譬喻商品保举，告白投放，它能按照当前景象上下文（用户偏好，地理位置，已产生的查询和点击等）来预计用户点击的也许性并及时做出调解。

storm的三大浸染规模：

1.信息流处理赏罚（Stream Processing）

Storm可以用来及时处理赏罚新数据和更新数据库，兼具容错性和可扩展性,它可以用来处理赏罚绵绵不断的动静，并将处理赏罚之后的功效生涯到耐久化介质中。

2.持续计较（Continuous Computation）

Storm可以举办持续查询并把功效即时反馈给客户，好比将Twitter上的热点话题发送到客户端。

3.漫衍式长途进程挪用（Distributed RPC）

除此之外，Storm也被普及用于以下方面：

准确的告白推送
及时日记的处理赏罚

Twitter?Storm官方网站>>>

迭代计较

一、Apache Hama

简介：Apache Hama是一个纯BSP（Bulk Synchronous Parallel）计较框架，仿照了Google的Pregel。用来处理赏罚大局限的科学计较，出格是矩阵和图计较。

?成立在Hadoop上的漫衍式并行计较模子。

?基于 Map/Reduce 和 Bulk Synchronous 的实现框架。

?运行情形必要关联 Zookeeper、HBase、HDFS 组件。

Hama中有2个首要的模子:

– 矩阵计较(Matrix package)

– 面向图计较(Graph package)

Apache?Hama官方网站>>>

二、Apache?Giraph

代码托管地点：?GitHub

简介：Apache Giraph是一个可伸缩的漫衍式迭代图处理赏罚体系，灵感来自BSP（bulk synchronous parallel）和Google的Pregel，与它们区别于则是是开源、基于 Hadoop 的架构等。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/13

首页

尾页

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智