口试系列：深入领略Hadoop架构系统

发布时间：2019-09-26 12:46:39 所属栏目：教程来源：IT技术百货

导读：Hadoop组件简介官方文档组织的很是清楚，首要由以下四个组件构成:HDFS、map-reduce、yarn、hadoop-common hdfs架构 HDFS 漫衍式文件存储体系，首要特点是：可以运行在平凡低本钱硬件之上而且具备高容错性(硬件容错) 得当高吞吐量的大数据存储，但并不强

Hadoop组件简介

官方文档组织的很是清楚，首要由以下四个组件构成:HDFS、map-reduce、yarn、hadoop-common

hdfs架构

HDFS

漫衍式文件存储体系，首要特点是：

可以运行在平凡低本钱硬件之上
而且具备高容错性(硬件容错)
得当高吞吐量的大数据存储，但并不夸大低耽误
得当一次写，多次读的场景，不支持随机读写;

map-reduce

map-reduce是一个计较框架，绝大部门的数据处理赏罚都可以转化为map、reduce组合，然后操作map-reduce框架举办计较、处理赏罚;

yarn

资源打点器，焦点的头脑时将资源的调治打点与资源监控支解为两个历程，个中一个是ResourceManager，另一个是NodeManager，前者认真资源的分派、后者认真资源监控;

common

hdfs、map-reduce所必要的民众库;

口试题

HDFS的历程组成及其浸染;
nameNode历程：认真对外展示文件的层级布局、打点客户端对文件的会见(如：打开、封锁、重定名等)、抉择文件block与dataNode的对应相关;
secondNameNode历程：从名字来看，应该是nameNode的back up，然而并不是，其首要浸染是帮忙nameNode打点editLog;
dataNode：首要认真数据存储以及客户端的读写哀求以及block的建设、删除等;

具体表明map进程的细节：

map进程首要是实现key-value荟萃到key-value荟萃的映射，可以实一对一、一对多、多对多映射;
具体进程是：map -> group -> sorted -> partitioned
group：沟通的key放到一路;
sorted：凭证key举办排序
partition：对key举办分区，最终分区数目一样平常便是task数目;

具体表明reduce进程细节：

起首是shuffle，即从map端拉取数据到reducer端;
之后是group，也就是沟通的key也许来自于差异的map，以是必要group
之后是sort进程(再map阶段排序的基本之上，举办合并排序即可)
最后是second sort(用户自界说，假如没有自界说则不执行)
最后是reduce进程。

setCombinerClass的浸染：

在map端先举办一部门reduce事变，首要利益是镌汰shuffle本钱;但也有必然的范围性，仅仅合用于reduce的输入和输出数据范例沟通时;

简朴先容Federation架构：

Federation架构通过多个独立的NameNode实现集群的横向扩展，首要办理了HDFS的吞吐量及承载量受限于单个nameNode，而且无法按照namespace做断绝的破绽。

在存储层，各个nameNode共用同一的DataNode

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

教你如何安装ghost xp	深度技术Ghost xp系统
ghost xp sp3电脑公司	8187无线网卡驱动,教您