81个开源大数据处理赏罚器材汇总（上），包罗查询引擎/流式计较/存储

发布时间：2021-02-25 21:29:53 所属栏目：大数据来源：网络整理

导读：本文一共分为上下两部门。我们将针对大数据开源器材差异的用处来举办分类，而且附上了官网和部门下载链接，但愿能给做大数据的伴侣做个参考。下面是第一部门。查询引擎一、Phoenix 孝顺者：：Salesforce 简介：这是一个Java中间层，可以闪开拓者在Apache H

Giraph处理赏罚平台合用于运行大局限的逻辑计较，好比页面排行、共享链接、基于本性化排行等。Giraph专注于交际图计较，被Facebook作为其Open Graph器材的焦点，几分钟内处理赏罚数万亿次用户及其举动之间的毗连。

三、HaLoop

简介：迭代的MapReduce，HaLoop——合用于迭代计较的Hadoop 。

81个开源大数据处理赏罚器材汇总（上），包罗查询引擎/流式计较/存储

Hadoop与HaLoop的差异

与Hadoop较量的四点改变：

1.提供了一套新的编程接口，越发合用于迭代计较；

HaLoop给迭代计较一个抽象的递归公式：

81个开源大数据处理赏罚器材汇总（上），包罗查询引擎/流式计较/存储

2.HaLoop的master举办job内的轮回节制，直到迭代计较竣事；

3.Task Scheduler也举办了修改，使得使命可以或许只管满意data locality

4.slave nodes对数据举办cache并index索引，索引也以文件的情势生涯在当地磁盘。

HaLoop官网>>>

四、Twister

简介：Twister，迭代式MapReduce框架，Twister是由一个印度人开拓的，其架构如下：

81个开源大数据处理赏罚器材汇总（上），包罗查询引擎/流式计较/存储

在Twister中，大文件不会自动被切割成一个一个block，因而用户需提前把文件分成一个一个小文件，以供每个task处理赏罚。在map阶段，颠末map（）处理赏罚完的功效被放在漫衍式内存中，然后通过一个broker network（NaradaBroking体系）将数据push给各个reduce task（Twister假设内存足够大，中间数据可以所有放在内存中）；在reduce阶段，全部reduce task发生的功效通过一个combine操纵举办合并，此时，用户可以举办前提鉴定，确定迭代是否竣事。combine后的数据直接被送给map task，开始新一轮的迭代。为了进步容错性，Twister每隔一段时刻会将map task和reduce task发生的功效写到磁盘上，这样，一旦某个task失败，它可以从最近的备份中获取输入，从头计较。

为了停止每次迭代从头建设task，Twister维护了一个task pool，每次必要task时直接从pool中取。在Twister中，全部动静和数据都是通过broker network转达的，该broker network是一个独立的模块，今朝支持NaradaBroking和ActiveMQ。

离线计较

一、Hadoop?MapReduce

简介：MapReduce是一种编程模子，用于大局限数据集（大于1TB）的并行运算。观念”Map（映射）”和”Reduce（归约）”，和它们的首要头脑，都是从函数式编程说话里借来的，尚有从矢量编程说话里借来的特征。它极大处所便了编程职员在不会漫衍式并行编程的环境下，将本身的措施运行在漫衍式体系上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来担保全部映射的键值对中的每一个共享沟通的键组。

Hadoop?MapReduce官方网站>>>

二、Berkeley Spark

简介：Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的利益；但差异于MapReduce的是Job中间输出功效可以生涯在内存中，从而不再必要读写HDFS，因此Spark能更好地合用于数据发掘与呆板进修等必要迭代的map reduce的算法。