加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

兄弟,这种思路讲解HDFS你肯定没见过,快速入门Hadoop必备

发布时间:2019-11-05 16:24:15 所属栏目:教程 来源:IT技术管理那些事儿
导读:那咱们照旧回到老话题上来,hadoop的组件讲授,总不能每天即兴施展,本日讲漫衍式文件体系HDFS。 从RAID提及 大数据技能首要要办理的题目的是大局限数据的计较处理赏罚题目,那么起主要办理的就是大局限数据的存储题目。大局限数据存储要办理的焦点题目有三个

究竟上,DataNode会通过心跳和NameNode保持通讯,假如DataNode超时未发送心跳,NameNode就会以为这个DataNode已经失效,当即查找这个DataNode上存储的block有哪些,以及这些block还存储在哪些处事器上,随后关照这些处事器再复制一份block到其他处事器上,担保HDFS存储的block备份数切实用户配置的数量,纵然再有处事器宕机,也不会丢失数据。

HDFS应用

Hadoop漫衍式文件体系可以象一样平常的文件体系那样举办会见:行使呼吁行可能编程说话API举办文件读写操纵。我们以HDFS写文件为例看HDFS处理赏罚进程,如下图。

兄弟,这种思绪讲授HDFS你必定没见过,快速入门Hadoop必备

HDFS写文件操纵

  • 应用措施Client挪用HDFS API,哀求建设文件,HDFS API包括在Client历程中。
  • HDFS API将哀求参数发送给NameNode处事器,NameNode在meta信息中建设文件路径,并查找DataNode中空闲的block。然后将空闲block的id、对应的DataNode处事器信息返回给Client。由于数据块必要多个备份,以是纵然Client只必要一个block的数据量,NameNode也会返回多个NameNode信息。
  • Client挪用HDFS API,哀求将数据流写出。
  • HDFS API毗连第一个DataNode处事器,将Client数据流发送给DataNode,该DataNode一边将数据写入当地磁盘,一边发送给第二个DataNode。同理第二个DataNode记录数据并发送给第三个DataNode。
  • Client关照NameNode文件写入完成,NameNode将文件标志为正常,可以举办读操纵了。

HDFS固然提供了API,可是在实践中,我们很少本身编程直接去读取HDFS中的数据,缘故起因正如开篇提到,在大数据场景下,移动计较比移动数据更划算。于其写措施去读取漫衍在这么多DataNode上的数据,不如将措施分发到DataNode上去会见其上的block数据。可是怎样对措施举办分发?分发出去的措施又怎样会见HDFS上的数据?计较的功效如那里理赏罚,假如功效必要归并,该怎样归并?

Hadoop提供了对存储在HDFS上的大局限数据举办并行计较的框架,就是我们之前讲的MapReduce。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读