81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储
简介:Apache Drill是是一个可以或许对大数据举办交互说明、开源的漫衍式体系,且基于Google Dremel实现,它可以或许运行在上千个节点的处事器集群上,且能在几秒内处理赏罚PB级可能万亿条的数据记录。Drill可以或许辅佐企业用户快速、高效地举办Hadoop数据查询和企业级大数据说明。Drill于2012年8月份由Apache推出。 从Drill官方对其架构的先容中得知,其具有适于及时的说明和快速的应用开拓、适于半布局化/嵌套数据的说明、兼容现有的SQL情形和Apache Hive等特性。其它,Drill的焦点模块是Drillbit处事,该处事模块包罗长途会见子模块、SQL理会器、查询优化器、使命打算执行引擎、存储插件接口(DFS、HBase、Hive等的接口)、漫衍式缓存模块等几部门,如下图所示: Apache?Drill官方网站>>> 八、Apache?Tajo简介:Apache Tajo项目标目标是在HDFS之上构建一个先辈的数据客栈体系。Tajo将本身标榜为一个“大数据客栈”,可是它仿佛和之前先容的那些低耽误查询引擎相同。固然它支持外部表和Hive数据集(通过HCatalog),可是它的重点是数据打点,提供低耽误的数据会见,以及为更传统的ETL提供器材。它也必要在数据节点上陈设Tajo特定的事变历程。 Tajo的成果包罗: ?ANSI SQL兼容 Apache?Tajo官方网站>>> 九、Hive简介:hive是基于Hadoop的一个数据客栈器材,可以将布局化的数据文件映射为一张数据库表,并提供简朴的sql查询成果,可以将sql语句转换为MapReduce使命举办运行。 其利益是进修本钱低,可以通过类SQL语句快速实现简朴的MapReduce统计,不必开拓专门的MapReduce应用,异常得当数据客栈的统计说明。 Hive官方网站>>> 流式计较一、Facebook?Puma孝顺者:Facebook 简介:及时数据流说明 二、Twitter Rainbird孝顺者:Twitter 简介:Rainbird一款基于Zookeeper,Cassandra,Scribe,Thrift的漫衍式及时统计体系,这些基本组件的根基成果如下: ? Zookeeper,Hadoop子项目中的一款漫衍式和谐体系,用于节制漫衍式体系中各个组件中的同等性。 ?Cassandra,NoSQL中一款很是精彩的产物,荟萃了Dynamo和Bigtable特征的漫衍式存储体系,用于存储必要举办统计的数据,统计数据,而且提供客户端举办统计数据的查询。(必要行使漫衍式Counter补丁CASSANDRA-1072) ??Scribe,Facebook开源的一款漫衍式日记网络体系,用于在体系中将各个必要统计的数据源网络到Cassandra中。 ??Thrift,Facebook开源的一款跨说话C/S收集通讯框架,开拓职员基于这个框架可以等闲地开拓C/S应用。 用处 Rainbird可以用于及时数据的统计: ?统计网站中每一个页面,域名的点击次数 ?内部体系的运行监控(统计被监控处事器的运行状态) ?记录最大值和最小值 三、Yahoo S4孝顺者:Yahoo 简介:S4(Simple Scalable Streaming System)最初是Yahoo!为进步搜刮告白有用点击率的题目而开拓的一个平台,通过统计说明用户对告白的点击率,解除相干度低的告白,晋升点击率。今朝该项目刚启动不久,以是也可以领略为是他们提出的一个漫衍式流计较(Distributed Stream Computing)的模子。 S4的计划方针是: ·提供一种简朴的编程接口来处理赏罚数据流 ·计一律个可以在平凡硬件之上可扩展的高可用集群。 ·通过在每个处理赏罚节点行使当地内存,停止磁盘I/O瓶颈到达最小化耽误 ·行使一个去中心的,对等架构;全部节点提供沟通的成果和职责。没有担负非凡责任的中心节点。这大大简化了陈设和维护。 ·行使可插拔的架构,使计划尽也许的即通用又可定制化。 ·友爱的计划理念,易于编程,具有机动的弹性 Yahoo S4官方网站>>> 四、Twitter?Storm孝顺者:Twitter 简介:Storm是Twitter开源的一个相同于Hadoop的及时数据处理赏罚框架,它原本是由BackType开拓,后BackType被Twitter收购,将Storm作为Twitter的及时数据说明体系。 及时数据处理赏罚的应用场景很普及,譬喻商品保举,告白投放,它能按照当前景象上下文(用户偏好,地理位置,已产生的查询和点击等)来预计用户点击的也许性并及时做出调解。 storm的三大浸染规模: 1.信息流处理赏罚(Stream Processing) Storm可以用来及时处理赏罚新数据和更新数据库,兼具容错性和可扩展性,它 可以用来处理赏罚绵绵不断的动静,并将处理赏罚之后的功效生涯到耐久化介质中。 2.持续计较(Continuous Computation) Storm可以举办持续查询并把功效即时反馈给客户,好比将Twitter上的热点话题发送到客户端。 3.漫衍式长途进程挪用(Distributed RPC) 除此之外,Storm也被普及用于以下方面:
Twitter?Storm官方网站>>> 迭代计较一、Apache Hama简介:Apache Hama是一个纯BSP(Bulk Synchronous Parallel)计较框架,仿照了Google的Pregel。用来处理赏罚大局限的科学计较,出格是矩阵和图计较。 ?成立在Hadoop上的漫衍式并行计较模子。 ?基于 Map/Reduce 和 Bulk Synchronous 的实现框架。 ?运行情形必要关联 Zookeeper、HBase、HDFS 组件。 Hama中有2个首要的模子: – 矩阵计较(Matrix package) – 面向图计较(Graph package) Apache?Hama官方网站>>> 二、Apache?Giraph代码托管地点:?GitHub 简介:Apache Giraph是一个可伸缩的漫衍式迭代图处理赏罚体系,灵感来自BSP(bulk synchronous parallel)和Google的Pregel,与它们 区别于则是是开源、基于 Hadoop 的架构等。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |