加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储

发布时间:2021-02-25 21:29:53 所属栏目:大数据 来源:网络整理
导读:本文一共分为上下两部门。我们将针对大数据开源器材差异的用处来举办分类,而且附上了官网和部门下载链接,但愿能给做大数据的伴侣做个参考。下面是第一部门。 查询引擎 一、Phoenix 孝顺者::Salesforce 简介:这是一个Java中间层,可以闪开拓者在Apache H

简介:Apache Drill是是一个可以或许对大数据举办交互说明、开源的漫衍式体系,且基于Google Dremel实现,它可以或许运行在上千个节点的处事器集群上,且能在几秒内处理赏罚PB级可能万亿条的数据记录。Drill可以或许辅佐企业用户快速、高效地举办Hadoop数据查询和企业级大数据说明。Drill于2012年8月份由Apache推出。

从Drill官方对其架构的先容中得知,其具有适于及时的说明和快速的应用开拓、适于半布局化/嵌套数据的说明、兼容现有的SQL情形和Apache Hive等特性。其它,Drill的焦点模块是Drillbit处事,该处事模块包罗长途会见子模块、SQL理会器、查询优化器、使命打算执行引擎、存储插件接口(DFS、HBase、Hive等的接口)、漫衍式缓存模块等几部门,如下图所示:

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储

Apache?Drill官方网站>>>

八、Apache?Tajo

简介:Apache Tajo项目标目标是在HDFS之上构建一个先辈的数据客栈体系。Tajo将本身标榜为一个“大数据客栈”,可是它仿佛和之前先容的那些低耽误查询引擎相同。固然它支持外部表和Hive数据集(通过HCatalog),可是它的重点是数据打点,提供低耽误的数据会见,以及为更传统的ETL提供器材。它也必要在数据节点上陈设Tajo特定的事变历程。

Tajo的成果包罗:

?ANSI SQL兼容
?JDBC 驱动
?集成Hive metastore可以或许会见Hive数据集
?一个呼吁行客户端
?一个自界说函数API

Apache?Tajo官方网站>>>

九、Hive

简介:hive是基于Hadoop的一个数据客栈器材,可以将布局化的数据文件映射为一张数据库表,并提供简朴的sql查询成果,可以将sql语句转换为MapReduce使命举办运行。 其利益是进修本钱低,可以通过类SQL语句快速实现简朴的MapReduce统计,不必开拓专门的MapReduce应用,异常得当数据客栈的统计说明。

Hive官方网站>>>

流式计较

一、Facebook?Puma

孝顺者:Facebook

简介:及时数据流说明

二、Twitter Rainbird

孝顺者:Twitter

简介:Rainbird一款基于Zookeeper,Cassandra,Scribe,Thrift的漫衍式及时统计体系,这些基本组件的根基成果如下:

? Zookeeper,Hadoop子项目中的一款漫衍式和谐体系,用于节制漫衍式体系中各个组件中的同等性。

?Cassandra,NoSQL中一款很是精彩的产物,荟萃了Dynamo和Bigtable特征的漫衍式存储体系,用于存储必要举办统计的数据,统计数据,而且提供客户端举办统计数据的查询。(必要行使漫衍式Counter补丁CASSANDRA-1072)

??Scribe,Facebook开源的一款漫衍式日记网络体系,用于在体系中将各个必要统计的数据源网络到Cassandra中。

??Thrift,Facebook开源的一款跨说话C/S收集通讯框架,开拓职员基于这个框架可以等闲地开拓C/S应用。

用处

Rainbird可以用于及时数据的统计:

?统计网站中每一个页面,域名的点击次数

?内部体系的运行监控(统计被监控处事器的运行状态)

?记录最大值和最小值

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储

三、Yahoo S4

孝顺者:Yahoo

简介:S4(Simple Scalable Streaming System)最初是Yahoo!为进步搜刮告白有用点击率的题目而开拓的一个平台,通过统计说明用户对告白的点击率,解除相干度低的告白,晋升点击率。今朝该项目刚启动不久,以是也可以领略为是他们提出的一个漫衍式流计较(Distributed Stream Computing)的模子。

S4的计划方针是:

·提供一种简朴的编程接口来处理赏罚数据流

·计一律个可以在平凡硬件之上可扩展的高可用集群。

·通过在每个处理赏罚节点行使当地内存,停止磁盘I/O瓶颈到达最小化耽误

·行使一个去中心的,对等架构;全部节点提供沟通的成果和职责。没有担负非凡责任的中心节点。这大大简化了陈设和维护。

·行使可插拔的架构,使计划尽也许的即通用又可定制化。

·友爱的计划理念,易于编程,具有机动的弹性

Yahoo S4官方网站>>>

四、Twitter?Storm

孝顺者:Twitter

简介:Storm是Twitter开源的一个相同于Hadoop的及时数据处理赏罚框架,它原本是由BackType开拓,后BackType被Twitter收购,将Storm作为Twitter的及时数据说明体系。

及时数据处理赏罚的应用场景很普及,譬喻商品保举,告白投放,它能按照当前景象上下文(用户偏好,地理位置,已产生的查询和点击等)来预计用户点击的也许性并及时做出调解。

storm的三大浸染规模:

1.信息流处理赏罚(Stream Processing)

Storm可以用来及时处理赏罚新数据和更新数据库,兼具容错性和可扩展性,它 可以用来处理赏罚绵绵不断的动静,并将处理赏罚之后的功效生涯到耐久化介质中。

2.持续计较(Continuous Computation)

Storm可以举办持续查询并把功效即时反馈给客户,好比将Twitter上的热点话题发送到客户端。

3.漫衍式长途进程挪用(Distributed RPC)

除此之外,Storm也被普及用于以下方面:

  • 准确的告白推送
  • 及时日记的处理赏罚

Twitter?Storm官方网站>>>

迭代计较

一、Apache Hama

简介:Apache Hama是一个纯BSP(Bulk Synchronous Parallel)计较框架,仿照了Google的Pregel。用来处理赏罚大局限的科学计较,出格是矩阵和图计较。

?成立在Hadoop上的漫衍式并行计较模子。

?基于 Map/Reduce 和 Bulk Synchronous 的实现框架。

?运行情形必要关联 Zookeeper、HBase、HDFS 组件。

Hama中有2个首要的模子:

– 矩阵计较(Matrix package)

– 面向图计较(Graph package)

Apache?Hama官方网站>>>

二、Apache?Giraph

代码托管地点:?GitHub

简介:Apache Giraph是一个可伸缩的漫衍式迭代图处理赏罚体系,灵感来自BSP(bulk synchronous parallel)和Google的Pregel,与它们 区别于则是是开源、基于 Hadoop 的架构等。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读