学Hadoop你必须要知道的
副问题[/!--empirenews.page--]
文章目次: 一、理论常识 1.Hadoop的整体印象 2.Hadoop的上风 3.Hadoop可以做什么 4.Hadoop布局 4.1 Hadoop存储--HDFS 4.2 Hadoop计较--MapReduce 4.3 Hadoop资源打点--YARN 5.Hadoop生态 二、Hadoop现实操纵 本文内容诸多小心,在小心处会暗示出处,可在出处查察详情。 一、理论常识
1.Hadoop的整体印象 一句话归纳综合:Hadoop就是存储海量数据和说明海量数据的器材。 Hadoop是由java说话编写的,在漫衍式处事器集群上存储海量数据并运行漫衍式说明应用的开源框架,其焦点部件是HDFS与MapReduce。 HDFS是一个漫衍式文件体系:引入存放文件元数据信息的处事器Namenode和现实存放数据的处事器Datanode,对数据举办漫衍式储存和读取。 MapReduce是一个计较框架:MapReduce的焦点头脑是把计较使命分派给集群内的处事器里执行。通过对计较使命的拆分(Map计较/Reduce计较)再按照使命调治器(JobTracker)对使命举办漫衍式计较。 2.Hadoop的上风
3.Hadoop可以做什么
Hadoop是专为离线和大局限数据说明而计划的,并不得当那种对几个记录随机读写的在线事宜处理赏罚模式。 现实应用: Flume+Logstash+Kafka+Spark Streaming举办及时日记处理赏罚说明 ![]() 酷狗音乐的大数据平台 ![]() 4.Hadoop布局
4.1 Hadoop存储–HDFS Hadoop 的存储体系是 HDFS(Hadoop Distributed File System)漫衍式文件体系,对外部客户端而言,HDFS 就像一个传统的分级文件体系,可以举办建设、删除、移动或重定名文件或文件夹等操纵,与 Linux 文件体系相同。 Hadoop HDFS 的架构是基于一组特定的节点构建的(见图s),这些节名称节点(NameNode,仅一个),它在 HDFS 内部提供元数据处事;第二名称节点(Secondary NameNode),名称节点的辅佐节点,首要是为了整合元数据操纵(留意不是名称节点的备份);数据节点(DataNode),它为 HDFS 提供存储块。因为仅有一个 NameNode,因此这是 HDFS 的一个弱点(单点失败,在 Hadoop2.x 后有较大改进)。存储在 HDFS 中的文件被分成块,然后这些块被复制到多个数据节点中(DataNode),这与传统的 RAID 架构大不沟通。块的巨细(凡是为 128M)和复制的块数目在建设文件时由客户机抉择。名称节点可以节制全部文件操纵。HDFS 内部的全部通讯都基于尺度的 TCP/IP 协议。 (1)名称节点(NameNode) 它是一个凡是在HDFS架构中单独呆板上运行的组件,认真打点文件体系名称空间和节制外部客户机的会见。NameNode抉择是否将文件映射到DataNode上的复制块上。对付最常见的3个复制块,第一个复制块存储在统一机架的差异节点上,最后一个复制块存储在差异机架的某个节点上。 (2)数据节点(DataNode) 数据节点也是一个凡是在HDFS架构中的单独呆板上运行的组件。Hadoop集群包括一个NameNode和大量DataNode。数据节点凡是以机架的情势组织,机架通过一个互换机将全部辖档同接起来。 数据节点相应来自HDFS客户机的读写哀求。它们还相应来自NameNode的建设、删除和复制块的呼吁。名称节点依靠来自每个数据节点的按期心跳(heartbeat)动静。每条动静都包括一个块陈诉,名称节点可以按照这个陈诉验证块映射和其他文件体系元数据。假如数据节点不能发送心跳动静,名称节点将采纳修复法子,从头复制在该节点上丢失的块。 (3)第二名称节点(Secondary NameNode) 第二名称节点的浸染在于为HDFS中的名称节点提供一个Checkpoint,它只是名称节点的一个助手节点,这也是它在社区内被以为是Checkpoint Node的缘故起因。 如下图所示,fsimage 是 NameNode 启动时对整个文件体系的快照;edits 是在 NameNode 启动后对文件体系的窜改序列。 只有在NameNode重启时,edits才会归并到fsimage文件中,从而获得一个文件体系的最新快照。可是在出产情形集群中的NameNode是很少重启的,这意味着当NameNode运行很长时刻后,edits文件会变得很大。而当NameNode宕机时,edits就会丢失许多窜改。 ![]() 如图 1-4 所示,Secondary NameNode 会按时到 NameNode 去获取名称节点的 edits,并实时更新到本身 fsimage 上。这样,假如 NameNode 宕机,我们也可以行使 Secondary-NameNode 的信息来规复 NameNode。而且,假如 Secondary NameNode 新的 fsimage 文件到达必然阈值,它就会将其拷贝回名称节点上,这样 NameNode 在下次重启时会行使这个新的 fsimage 文件,从而镌汰重启的时刻。 ![]() (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |