加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储

发布时间:2021-02-25 21:29:53 所属栏目:大数据 来源:网络整理
导读:本文一共分为上下两部门。我们将针对大数据开源器材差异的用处来举办分类,而且附上了官网和部门下载链接,但愿能给做大数据的伴侣做个参考。下面是第一部门。 查询引擎 一、Phoenix 孝顺者::Salesforce 简介:这是一个Java中间层,可以闪开拓者在Apache H

Giraph处理赏罚平台合用于运行大局限的逻辑计较,好比页面排行、共享链接、基于本性化排行等。Giraph专注于交际图计较,被Facebook作为其Open Graph器材的焦点,几分钟内处理赏罚数万亿次用户及其举动之间的毗连。

三、HaLoop

简介:迭代的MapReduce,HaLoop——合用于迭代计较的Hadoop 。

?

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储

Hadoop与HaLoop的差异

与Hadoop较量的四点改变:

1.提供了一套新的编程接口,越发合用于迭代计较;

HaLoop给迭代计较一个抽象的递归公式:

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储


2.HaLoop的master举办job内的轮回节制,直到迭代计较竣事;

3.Task Scheduler也举办了修改,使得使命可以或许只管满意data locality

4.slave nodes对数据举办cache并index索引,索引也以文件的情势生涯在当地磁盘。

HaLoop官网>>>

四、Twister

简介:Twister, 迭代式MapReduce框架,Twister是由一个印度人开拓的,其架构如下:

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储

在Twister中,大文件不会自动被切割成一个一个block,因而用户需提前把文件分成一个一个小文件,以供每个task处理赏罚。在map阶段,颠末map()处理赏罚完的功效被放在漫衍式内存中,然后通过一个broker network(NaradaBroking体系)将数据push给各个reduce task(Twister假设内存足够大,中间数据可以所有放在内存中);在reduce阶段,全部reduce task发生的功效通过一个combine操纵举办合并,此时,用户可以举办前提鉴定, 确定迭代是否竣事。combine后的数据直接被送给map task,开始新一轮的迭代。为了进步容错性,Twister每隔一段时刻会将map task和reduce task发生的功效写到磁盘上,这样,一旦某个task失败,它可以从最近的备份中获取输入,从头计较。

为了停止每次迭代从头建设task,Twister维护了一个task pool,每次必要task时直接从pool中取。在Twister中,全部动静和数据都是通过broker network转达的,该broker network是一个独立的模块,今朝支持NaradaBroking和ActiveMQ。

离线计较

一、Hadoop?MapReduce

简介:MapReduce是一种编程模子,用于大局限数据集(大于1TB)的并行运算。观念”Map(映射)”和”Reduce(归约)”,和它们的首要头脑,都是从函数式编程说话里借来的,尚有从矢量编程说话里借来的特征。它极大处所便了编程职员在不会漫衍式并行编程的环境下,将本身的措施运行在漫衍式体系上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来担保全部映射的键值对中的每一个共享沟通的键组。

Hadoop?MapReduce官方网站>>>

二、Berkeley Spark

简介:Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的利益;但差异于MapReduce的是Job中间输出功效可以生涯在内存中,从而不再必要读写HDFS,因此Spark能更好地合用于数据发掘与呆板进修等必要迭代的map reduce的算法。

三、DataTorrent

简介:DataTorrent基于Hadoop 2.x构建,是一个及时的、有容错手段的数据流式处理赏罚和说明平台,它行使当地Hadoop应用措施,而这些应用措施可以与执行其余使命,如批处理赏罚,的应用措施共存。该平台的架构如下图所示:

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储

相干文章:DataTorrent 1.0每秒处理赏罚高出10亿个及事势件

DataTorrent 将数据说明速率从“及时”晋升至“此刻时”

?

键值存储

一、LevelDB

81个开源大数据处理赏罚器材汇总(上),包罗查询引擎/流式计较/存储

孝顺者:Google

简介:Leveldb是一个google实现的很是高效的kv数据库,今朝的版本1.2可以或许支持billion级此外数据量了。 在这个数目级别下尚有着很是高的机能,首要归功于它的精采的计划。出格是LMS算法。

LevelDB 是单历程的处事,机能很是之高,在一台4核Q6600的CPU呆板上,每秒钟写数据高出40w,而随机读的机能每秒钟高出10w。

此处随机读是完全掷中内存的速率,假如是不掷中 速率大大降落。

LevelDB官方网站>>>

二、RocksDB

孝顺者:facebook

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读