加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

学Hadoop你必须要知道的

发布时间:2019-08-06 23:57:00 所属栏目:教程 来源:大数据三十四号
导读:文章目次: 一、理论常识 1.Hadoop的整体印象 2.Hadoop的上风 3.Hadoop可以做什么 4.Hadoop布局 4.1 Hadoop存储--HDFS 4.2 Hadoop计较--MapReduce 4.3 Hadoop资源打点--YARN 5.Hadoop生态 二、Hadoop现实操纵 本文内容诸多小心,在小心处会暗示出处,可在出

文件在客户端时会被分块,这里可以看到文件被分为 5 个块,别离是:A、B、C、D、E。同时为了负载平衡,以是每个节点有 3 个块。下面来看看详细步调:

  1. 客户端将要上传的文件按 128M 的巨细分块。
  2. 客户端向名称节点发送写数据哀求。
  3. 名称节点记录各个 DataNode 信息,并返回可用的 DataNode 列表。
  4. 客户端直接向 DataNode 发送支解后的文件块,发送进程以流式写入。
  5. 写入完成后,DataNode 向 NameNode 发送动静,更新元数据。

这里必要留意:

  1. 写 1T 文件,必要 3T 的存储,3T 的收集流量。
  2. 在执行读或写的进程中,NameNode 和 DataNode 通过 HeartBeat 举办生涯通讯,确定 DataNode 在世。假如发明 DataNode 死掉了,就将死掉的 DataNode 上的数据,放到其他节点去,读取时,读其他节点。
  3. 宕掉一个节点不要紧,尚有其他节点可以备份;乃至,宕掉某一个机架也不要紧;其他机架上也有备份。

4.2 Hadoop计较–MapReduce

MapReduce用于大局限数据集(大于1TB)的并行运算。观念**“Map(映射)”和“Reduce(归纳)”**以及它们的首要头脑,都是从函数式编程说话借来的,尚有从矢量编程说话借来的特征。

当前的软件实现是指定一个 Map(映射)函数:用来把一组键值对映射成一组新的键值对。指定并发的 Reduce(归纳)函数,用来担保全部映射的键值对中的每一个共享沟通的键组,如下图所示。

学Hadoop你必必要知道的

下面将以 Hadoop 的“Hello World”例程—单词计数来说明MapReduce的逻辑,如下图 所示。一样平常的 MapReduce 措施会颠末以下几个进程:输入(Input)、输入分片(Splitting)、Map阶段、Shuffle阶段、Reduce阶段、输出(Final result)。

学Hadoop你必必要知道的

1.输入就不消说了,数据一样平常放在 HDFS 上面就可以了,并且文件是被分块的。关于文件块和文件分片的相关,在输入分片中声名。

2.输入分片:在举办 Map 阶段之前,MapReduce 框架会按照输入文件计较输入分片(split),每个输入分片会对应一个 Map 使命,输入分片每每和 HDFS 的块相关很亲近。譬喻,HDFS 的块的巨细是 128M,假如我们输入两个文件,巨细别离是 27M、129M,那么 27M 的文件会作为一个输入分片(不敷 128M 会被看成一个分片),而 129MB 则是两个输入分片(129-128=1,不敷 128M,以是 1M 也会被看成一个输入分片),以是,一样平常来说,一个文件块会对应一个分片。如图 1-7 所示,Splitting 对应下面的三个数据应该领略为三个分片。

3.Map 阶段:这个阶段的处理赏罚逻辑就是编写好的 Map 函数,由于一个分片对应一个 Map 使命,而且是对应一个文件块,以是这里着实是数据当地化的操纵,也就是所谓的移动计较而不是移动数据。如图 1-7 所示,这里的操纵着实就是把每句话举办支解,然后获得每个单词,再对每个单词举办映射,获得单词和1的键值对。

4.Shuffle 阶段:这是“事迹”产生的处所,MapReduce 的焦点着实就是 Shuffle。那么 Shuffle 的道理呢?Shuffle 就是将 Map 的输出举办整合,然后作为 Reduce 的输入发送给 Reduce。简朴领略就是把全部 Map 的输出凭证键举办排序,而且把相对键的键值对整合到统一个组中。如上图所示,Bear、Car、Deer、River 是排序的,而且 Bear 这个键有两个键值对。

5.Reduce 阶段:与 Map 相同,这里也是用户编写措施的处所,可以针对分组后的键值对举办处理赏罚。如上图所示,针对统一个键 Bear 的全部值举办了一个加法操纵,获得 这样的键值对。

6.输出:Reduce 的输出直接写入 HDFS 上,同样这个输出文件也是分块的。

用一张图暗示上述的运行流程:MapReduce 的本质就是把一组键值对 颠末 Map 阶段映射成新的键值对 ;接着颠末 Shuffle/Sort 阶段举办排序和“洗牌”,把键值对排序,同时把沟通的键的置魅整合;最后颠末 Reduce 阶段,把整合后的键值对组举办逻辑处理赏罚,输出到新的键值对 。这样的一个进程,着实就是 MapReduce 的本质。

学Hadoop你必必要知道的

Hadoop MapReduce 可以按照其行使的资源打点框架差异,而分为 MR v1 和 YARN/MR v2 版本。

在 MR v1 版本中,资源打点首要是 Jobtracker 和 TaskTracker。Jobtracker 首要认真:功课节制(功课解析和状态监控),首要是 MR 使命以及资源打点;而 TaskTracker 首要是调治 Job 的每一个子使命 task;而且吸取 JobTracker 的呼吁。

在 YARN/MR v2 版本中,YARN 把 JobTracker 的事变分为两个部门:

ResourceManager 资源打点器全局打点全部应用措施计较资源的分派。

ApplicationMaster 认实情应的调治和和谐。

NodeManager 是每一台呆板框架的署理,是执行应用措施的容器,监控应用措施的资源(CPU、内存、硬盘、收集)行使环境,而且向调治器讲述。

学Hadoop你必必要知道的

4.3 Hadoop资源打点–YARN

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读