加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

口试系列:深入领略Hadoop架构系统

发布时间:2019-09-26 12:46:39 所属栏目:教程 来源:IT技术百货
导读:Hadoop组件简介 官方文档组织的很是清楚,首要由以下四个组件构成:HDFS、map-reduce、yarn、hadoop-common hdfs架构 HDFS 漫衍式文件存储体系,首要特点是: 可以运行在平凡低本钱硬件之上 而且具备高容错性(硬件容错) 得当高吞吐量的大数据存储,但并不强

Hadoop组件简介

官方文档组织的很是清楚,首要由以下四个组件构成:HDFS、map-reduce、yarn、hadoop-common

口试系列:深入领略hadoop架构系统
hdfs架构

HDFS

漫衍式文件存储体系,首要特点是:

  • 可以运行在平凡低本钱硬件之上
  • 而且具备高容错性(硬件容错)
  • 得当高吞吐量的大数据存储,但并不夸大低耽误
  • 得当一次写,多次读的场景,不支持随机读写;

map-reduce

map-reduce是一个计较框架,绝大部门的数据处理赏罚都可以转化为map、reduce组合,然后操作map-reduce框架举办计较、处理赏罚;

yarn

资源打点器,焦点的头脑时将资源的调治打点与资源监控支解为两个历程,个中一个是ResourceManager,另一个是NodeManager,前者认真资源的分派、后者认真资源监控;

口试系列:深入领略hadoop架构系统

common

hdfs、map-reduce所必要的民众库;

口试题

  • HDFS的历程组成及其浸染;
  • nameNode历程:认真对外展示文件的层级布局、打点客户端对文件的会见(如:打开、封锁、重定名等)、抉择文件block与dataNode的对应相关;
  • secondNameNode历程:从名字来看,应该是nameNode的back up,然而并不是,其首要浸染是帮忙nameNode打点editLog;
  • dataNode:首要认真数据存储以及客户端的读写哀求以及block的建设、删除等;

具体表明map进程的细节:

  • map进程首要是实现key-value荟萃到key-value荟萃的映射,可以实一对一、一对多、多对多映射;
  • 具体进程是:map -> group -> sorted -> partitioned
  • group:沟通的key放到一路;
  • sorted:凭证key举办排序
  • partition:对key举办分区,最终分区数目一样平常便是task数目;

具体表明reduce进程细节:

  • 起首是shuffle,即从map端拉取数据到reducer端;
  • 之后是group,也就是沟通的key也许来自于差异的map,以是必要group
  • 之后是sort进程(再map阶段排序的基本之上,举办合并排序即可)
  • 最后是second sort(用户自界说,假如没有自界说则不执行)
  • 最后是reduce进程。
口试系列:深入领略hadoop架构系统

setCombinerClass的浸染:

  • 在map端先举办一部门reduce事变,首要利益是镌汰shuffle本钱;但也有必然的范围性,仅仅合用于reduce的输入和输出数据范例沟通时;

简朴先容Federation架构:

  • Federation架构通过多个独立的NameNode实现集群的横向扩展,首要办理了HDFS的吞吐量及承载量受限于单个nameNode,而且无法按照namespace做断绝的破绽。

在存储层,各个nameNode共用同一的DataNode

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读