加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Hadoop大数据通用处理平台

发布时间:2019-03-16 03:10:34 所属栏目:教程 来源:Java的小本家
导读:Hadoop是一款开源的大数据通用处理赏罚平台,其提供了漫衍式存储和漫衍式离线计较,得当大局限数据、流式数据(写一次,读多次),不得当低延时的会见、大量的小文件以及频仍修改的文件。 *Hadoop由HDFS、YARN、MapReduce构成。 假如想进修Java工程化、高机能及分
副问题[/!--empirenews.page--]

Hadoop是一款开源的大数据通用处理赏罚平台,其提供了漫衍式存储和漫衍式离线计较,,得当大局限数据、流式数据(写一次,读多次),不得当低延时的会见、大量的小文件以及频仍修改的文件。

*Hadoop由HDFS、YARN、MapReduce构成。

假如想进修Java工程化、高机能及漫衍式、深入浅出。微处事、Spring,MyBatis,Netty源码说明的伴侣可以加我的Java高级交换:854630135,群里有阿里大牛直播讲授技能,以及Java大型互联网技能的视频免费分享给各人。

Hadoop的特点:

  1. 高扩展(动态扩容):可以或许存储和处理赏罚千兆字节数据(PB),可以或许动态的增进和卸载节点,晋升存储手段(可以或许到达上千个节点)
  2. 低本钱:只必要平凡的PC机就能实现,不依靠高端存储装备和处事器。
  3. 高服从:通过在Hadoop集群平分化数据并行处理赏罚,使得处理赏罚速率很是快。
  4. 靠得住性:数据有多份副本,而且在使命失败后能自动从头陈设。

Hadoop的行使场景:

  • 日记说明,将数据分片并行计较处理赏罚。
  • 基于海量数据的在线应用。
  • 保举体系,精准营销。
  • 搜刮引擎。

Hadoop生态圈:

Hadoop大数据通用处理赏罚平台
  • Hive:操作Hive可以不必要编写伟大的Hadoop措施,只必要写一个SQL语句,Hive就会把SQL语句转换成Hadoop的使命去执行,低落行使Hadoop离线计较的门槛。
  • HBase:海量数据存储的非相关型数据库,单个表中的数据可以或许容纳百亿行x百万列。
  • ZooKeeper:监控Hadoop集群中每个节点的状态,打点整个集群的设置,维护节点间数据的同等性。
  • Flume:海量日记收罗体系。

2.内部布局

2.1 HDFS

HDFS是漫衍式文件体系,存储海量的文件,个中HDFS中包括NameNode、DataNode、SecondaryNameNode组件等。

Block数据块

  1. HDFS中根基的存储单位,1.X版本中每个Block默认是64M,2.X版本中每个Block默认是128M。
  2. 一个大文件会被拆分成多个Block举办存储,假如一个文件少于Block的巨细,那么着实际占用的空间为文件自身巨细。
  3. 每个Block城市在差异的DataNode节点中存在备份(默认备份数是3)

DataNode

  1. 生涯详细的Blocks数据。
  2. 认真数据的读写操纵和复制操纵。
  3. DataNode启动时会向NameNode讲述当前存储的数据块信息。

NameNode

  1. 存储文件的元信息和文件与Block、DataNode的相关,NameNode运行时全部数据都生涯在内存中,因此整个HDFS可存储的文件数受限于NameNode的内存巨细。
  2. 每个Block在NameNode中都对应一笔记录,假如是大量的小文件将会耗损大量内存,因此HDFS得当存储大文件。
  3. NameNode中的数据会按时生涯到当地磁盘中(只有元数据),但不生涯文件与Block、DataNode的位置信息,这部门数据由DataNode启动时上报和运行时维护。

*NameNode不应承DataNode具有统一个Block的多个副本,以是建设的最大副本数目是其时DataNode的总数。

*DataNode会按期向NameNode发送心跳信息,一旦在一按时刻内NameNode没有吸取到DataNode发送的心跳则以为其已经宕机,因此不会再给它任何IO哀求。

*假如DataNode失效造成副本数目降落而且低于预先配置的阈值可能动态增进副本数目,则NameNode会在吻合的机缘从头调治DataNode举办复制。

SecondaryNameNode

  1. 按时与NameNode举办同步,归并HDFS中体系镜像,按时替代NameNode中的镜像。

HDFS写入文件的流程

  1. HDFS Client向NameNode申请写入文件。
  2. NameNode按照文件巨细,返回文件要写入的DataNode列表以及Block id (此时NameNode已存储文件的元信息、文件与DataNode、Block之间的相关)
  3. HDFS Client收到相应后,将文件写入第一个DataNode中,第一个DataNode吸取到数据后将其写入当地磁盘,同时把数据转达给第二个DataNode,直到写入备份数个DataNode。
  4. 每个DataNode吸取完数据后城市向前一个DataNode返回写入乐成的相应,最终第一个DataNode将返回HDFS Client客户端写入乐成的相应。
  5. 当HDFS Client吸取到整个DataNodes简直认哀求后会向NameNode发送最终确认哀求,此时NameNode才会提交文件。

*当写入某个DataNode失败时,数据会继承写入其他的DataNode,NameNode会从头探求DataNode继承复制,以担保数据的靠得住性。

*每个Block城市有一个校验码并存放在独立的文件中,以便读的时辰来验证数据的完备性。

*文件写入完毕后,向NameNode发送确认哀求,此时文件才可见,假如发送确认哀求之前NameNode宕机,那么文件将会丢失,HDFS客户端无法举办读取。

HDFS读取文件的流程

假如想进修Java工程化、高机能及漫衍式、深入浅出。微处事、Spring,MyBatis,Netty源码说明的伴侣可以加我的Java高级交换:854630135,群里有阿里大牛直播讲授技能,以及Java大型互联网技能的视频免费分享给各人。

  1. HDFS Client向NameNode申请读取指定文件。
  2. NameNode返回文件全部的Block以及这些Block地址的DataNodes中(包罗复制节点)
  3. HDFS Client按照NameNode的返回,优先从与HDFS Client同节点的DataNode中直接读取(若HDFS Client不在集群范畴内则随机选择),假如从DataNode中读取失败则通过收集从复制节点中举办读取。

机架感知

漫衍式集群中凡是包括很是多的呆板,因为受到机架槽位和互换机网口的限定,凡是大型的漫衍式集群城市跨好几个机架,由多个机架上的呆板配合构成一个漫衍式集群。

机架内的呆板之间的收集速率凡是城市高于跨机架呆板之间的收集速率,而且机架之间呆板的收集通讯凡是受到上层互换机间收集带宽的限定。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读