加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

学Hadoop你必须要知道的

发布时间:2019-08-06 23:57:00 所属栏目:教程 来源:大数据三十四号
导读:文章目次: 一、理论常识 1.Hadoop的整体印象 2.Hadoop的上风 3.Hadoop可以做什么 4.Hadoop布局 4.1 Hadoop存储--HDFS 4.2 Hadoop计较--MapReduce 4.3 Hadoop资源打点--YARN 5.Hadoop生态 二、Hadoop现实操纵 本文内容诸多小心,在小心处会暗示出处,可在出
副问题[/!--empirenews.page--]

学Hadoop你必必要知道的

文章目次:

一、理论常识

1.Hadoop的整体印象

2.Hadoop的上风

3.Hadoop可以做什么

4.Hadoop布局

4.1 Hadoop存储--HDFS

4.2 Hadoop计较--MapReduce

4.3 Hadoop资源打点--YARN

5.Hadoop生态

二、Hadoop现实操纵

本文内容诸多小心,在小心处会暗示出处,可在出处查察详情。

一、理论常识

  • 参考Hadoop是什么,醒目什么,怎么行使

1.Hadoop的整体印象

一句话归纳综合:Hadoop就是存储海量数据和说明海量数据的器材。

Hadoop是由java说话编写的,在漫衍式处事器集群上存储海量数据并运行漫衍式说明应用的开源框架,其焦点部件是HDFS与MapReduce。

HDFS是一个漫衍式文件体系:引入存放文件元数据信息的处事器Namenode和现实存放数据的处事器Datanode,对数据举办漫衍式储存和读取。

MapReduce是一个计较框架:MapReduce的焦点头脑是把计较使命分派给集群内的处事器里执行。通过对计较使命的拆分(Map计较/Reduce计较)再按照使命调治器(JobTracker)对使命举办漫衍式计较。

2.Hadoop的上风

  • 高靠得住性 : Hadoop 按位存储和处理赏罚数据的手段值得人们相信。
  • 高扩展性 : Hadoop 是在可用的计较机集簇间分派数据并完成计较使命的,这些集簇可以利便地扩展到数以干计的节点中。
  • 高效性 : Hadoop可以或许在节点之间动态地移动数据,并担保各个节点的动态均衡,因此处理赏罚速率很是快。
  • 高容错性 : Hadoop可以或许自动生涯数据的多个副本,而且可以或许自动将失败的使命从头分。
  • 低本钱 : 与一体机、商用数据客栈以及 QlikView、 Yonghong Z- Suites 等数据集市对比,Hadoop 是开源的,项目标软件本钱因此会大大低落。Hadoop 带有效 Java 说话编写的框架,因此运行在 linux 出产平台上长短常抱负的, Hadoop 上的应用措施也可以行使其他说话编写,好比 C++。

3.Hadoop可以做什么

  • 可以大数据存储:漫衍式存储
  • 日记处理赏罚:善于日记说明
  • ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
  • 呆板进修: 好比Apache Mahout项目
  • 搜刮引擎:Hadoop + lucene实现
  • 数据发掘:今朝较量风行的告白保举,本性化告白保举

Hadoop是专为离线和大局限数据说明而计划的,并不得当那种对几个记录随机读写的在线事宜处理赏罚模式。

现实应用:

Flume+Logstash+Kafka+Spark Streaming举办及时日记处理赏罚说明

学Hadoop你必必要知道的

酷狗音乐的大数据平台

学Hadoop你必必要知道的

4.Hadoop布局

  • 参考Hadoop 系列(一)根基观念

4.1 Hadoop存储–HDFS

Hadoop 的存储体系是 HDFS(Hadoop Distributed File System)漫衍式文件体系,对外部客户端而言,HDFS 就像一个传统的分级文件体系,可以举办建设、删除、移动或重定名文件或文件夹等操纵,与 Linux 文件体系相同。

Hadoop HDFS 的架构是基于一组特定的节点构建的(见图s),这些节名称节点(NameNode,仅一个),它在 HDFS 内部提供元数据处事;第二名称节点(Secondary NameNode),名称节点的辅佐节点,首要是为了整合元数据操纵(留意不是名称节点的备份);数据节点(DataNode),它为 HDFS 提供存储块。因为仅有一个 NameNode,因此这是 HDFS 的一个弱点(单点失败,在 Hadoop2.x 后有较大改进)。存储在 HDFS 中的文件被分成块,然后这些块被复制到多个数据节点中(DataNode),这与传统的 RAID 架构大不沟通。块的巨细(凡是为 128M)和复制的块数目在建设文件时由客户机抉择。名称节点可以节制全部文件操纵。HDFS 内部的全部通讯都基于尺度的 TCP/IP 协议。

(1)名称节点(NameNode)

它是一个凡是在HDFS架构中单独呆板上运行的组件,认真打点文件体系名称空间和节制外部客户机的会见。NameNode抉择是否将文件映射到DataNode上的复制块上。对付最常见的3个复制块,第一个复制块存储在统一机架的差异节点上,最后一个复制块存储在差异机架的某个节点上。

(2)数据节点(DataNode)

数据节点也是一个凡是在HDFS架构中的单独呆板上运行的组件。Hadoop集群包括一个NameNode和大量DataNode。数据节点凡是以机架的情势组织,机架通过一个互换机将全部辖档同接起来。

数据节点相应来自HDFS客户机的读写哀求。它们还相应来自NameNode的建设、删除和复制块的呼吁。名称节点依靠来自每个数据节点的按期心跳(heartbeat)动静。每条动静都包括一个块陈诉,名称节点可以按照这个陈诉验证块映射和其他文件体系元数据。假如数据节点不能发送心跳动静,名称节点将采纳修复法子,从头复制在该节点上丢失的块。

(3)第二名称节点(Secondary NameNode)

第二名称节点的浸染在于为HDFS中的名称节点提供一个Checkpoint,它只是名称节点的一个助手节点,这也是它在社区内被以为是Checkpoint Node的缘故起因。

如下图所示,fsimage 是 NameNode 启动时对整个文件体系的快照;edits 是在 NameNode 启动后对文件体系的窜改序列。

只有在NameNode重启时,edits才会归并到fsimage文件中,从而获得一个文件体系的最新快照。可是在出产情形集群中的NameNode是很少重启的,这意味着当NameNode运行很长时刻后,edits文件会变得很大。而当NameNode宕机时,edits就会丢失许多窜改。

学Hadoop你必必要知道的

如图 1-4 所示,Secondary NameNode 会按时到 NameNode 去获取名称节点的 edits,并实时更新到本身 fsimage 上。这样,假如 NameNode 宕机,我们也可以行使 Secondary-NameNode 的信息来规复 NameNode。而且,假如 Secondary NameNode 新的 fsimage 文件到达必然阈值,它就会将其拷贝回名称节点上,这样 NameNode 在下次重启时会行使这个新的 fsimage 文件,从而镌汰重启的时刻。

学Hadoop你必必要知道的

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读