加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

大数据焦点框架MapReduce进程理会

发布时间:2019-08-16 10:51:25 所属栏目:教程 来源:架构师公社
导读:起首MapReduce很明明是分为Map阶段和Reduce阶段。两个阶段别离做什么呢? 小编本身画了个图,各人共勉一下 图中1-2进程为map进程,3为Reduce进程,接下来看一张专业图片,两张比拟一路看 在整个mapReduce进程包括许多伟大的处理赏罚进程,而我们要进修的就是其

起首MapReduce很明明是分为Map阶段和Reduce阶段。两个阶段别离做什么呢?

小编本身画了个图,各人共勉一下

大数据焦点框架MapReduce进程理会

图中1-2进程为map进程,3为Reduce进程,接下来看一张专业图片,两张比拟一路看

大数据焦点框架MapReduce进程理会

在整个mapReduce进程包括许多伟大的处理赏罚进程,而我们要进修的就是个中几个进程包括,Split进程、Partitione进程尚有Shuffle进程,举一个实例的话

假设我们手上有许多伟大数据,那么奈何来处理赏罚呢? 第一步就是分类,把数据分类。 分类后的数据就不伟大了,这就是异而化同。 分类之后数据照旧许多,怎么办呢? 第二步,支解。 支解就是把数据切分成小块, 这样就可以并发可能批量处理赏罚了, 这就是大而化小。

回到 map-reduce观念上, map的事变就是切分数据,然后给他们分类,分类的方法就是输出key,value对,key就是对应“种别”了。 分类之后,reducer拿到的都是同类数据,这样处理赏罚就很轻易了。

大数据一样平常回收的HDFS 办理了大数据存储的题目,那么 MapReduce 天然要办理的是数据计较题目在处理赏罚大数据计较中,一台呆板是无法满意大批量数据计较的,这个时辰就必要行使MapReduce,MapReduce是一种编程模子,用于大局限数据集的并行计较,必要将数据分派到大量的呆板上计较,每台呆板运行一个子计较使命,最后再归并每台呆板运算功效并输出。 MapReduce 的头脑就是 『分而治之』

MapReduce 将整个并行计较进程抽象到两个函数,在 Map 中举办数据的读取和预处理赏罚,之后将预处理赏罚的功效发送到 Reduce 中举办归并。一个简朴的 MapReduce 措施只必要指定 map()、reduce()、 input 和output,剩下的事由框架完成。

Map ( 映射 ) : 对一些独立元素构成的列表的每一个元素举办指定的操纵,可以高度并行。

Reduce( 化简 ) : 对一个列表的元素举办归并。

MapReduce执行流程

以经典的 WordCount 的例子来声名一下MapReduce的执行流程,WordCount就是统计每个单词呈现的次数。

大数据焦点框架MapReduce进程理会

MapReduce计较框架的一样平常流程有以下几个步调:

输入 ( Input ) 和拆分 ( Split ):

对数据举办分片处理赏罚。将源文件内容分片成一系列的 InputSplit,每个 InputSplit 存储着对应分片的数据信息,记着是对文件内容举办分片,并不是将源文件拆分成多个小文件。

迭代 ( iteration ):

遍历输入数据,并将之理会成 key/value 对。拆分数据片颠末名目化成键值对的名目,个中 key 为偏移量,value 是每一行的内容,这一步由MapReduce框架自动完成。

映射 ( Map ):

将输入 key/value 对映射 ( map ) 成其它一些 key/value 对。MapReduce 开始在呆板上执行 map 措施,map 措施的详细实现由我们本身界说,对输入的 key/value 举办处理赏罚,输出新的 key/value,这也是hadoop 并行究竟验展浸染的处所。

洗牌 ( Shuffer ) 进程:

依据 key 对中间数据举办分组 ( grouping )。这是一个洗牌的进程,获得map要领输出的 对后,Mapper 会将它们凭证 key 值举办处理赏罚,这包罗 sort (排序)、combiner (归并)、partition (分片) 等操纵到达排序分组和平衡分派,获得 Mapper 的最终输出功效交给 Reducer。mapper 和 reducer 一样平常不在一个节点上,这就导致了reducer 必要从差异的节点上下载数据,颠末处理赏罚后才气交给 reducer 处理赏罚。

合并( Reduce ):

以组为单元对数据举办归约 ( reduce )。Reducer 先对从 Mapper 吸取的数据举办排序,再交由用户自界说的 reduce要领举办处理赏罚。

迭代:

将最终发生的 key/value 对生涯到输出文件中。获得新的 对,生涯到输出文件中,即生涯在 HDFS 中。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读