加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

学Hadoop你必须要知道的

发布时间:2019-08-06 23:57:00 所属栏目:教程 来源:大数据三十四号
导读:文章目次: 一、理论常识 1.Hadoop的整体印象 2.Hadoop的上风 3.Hadoop可以做什么 4.Hadoop布局 4.1 Hadoop存储--HDFS 4.2 Hadoop计较--MapReduce 4.3 Hadoop资源打点--YARN 5.Hadoop生态 二、Hadoop现实操纵 本文内容诸多小心,在小心处会暗示出处,可在出

YARN 资源打点框架包罗 ResourceManager(资源打点器)、ApplicationMaster、NodeManager(节点打点器)。各个组件描写如下。

学Hadoop你必必要知道的

ResourceManager 是一个全局的资源打点器,认真整个体系的资源打点和分派。它首要由两个组件组成:调治器(Scheduler)和应用措施打点器(ApplicationManager,AM)。

Scheduler 认真分派起码但满意 Application 运行所需的资源量给 Application。Scheduler 只是基于资源的行使环境举办调治,并不认真监督/跟踪 Application 的状态,虽然也不会处理赏罚失败的 Task。

ApplicationManager 认真处理赏罚客户端提交的 Job 以及协商第一个 Container 以供 ApplicationMaster 运行,而且在 ApplicationMaster 失败的时辰会从头启动 ApplicationMaster(YARN 中行使 Resource Container 观念来打点集群的资源,Resource Container 是资源的抽象,每个 Container 包罗必然的内存、IO、收集等资源)。

ApplicatonMaster 是一个框架非凡的库,每个 Application 有一个 ApplicationMaster,首要打点和监控陈设在 YARN 集群上的各类应用。

NodeManager首要认真启动 ResourceManager 分派给 ApplicationMaster 的 Container,而且会监督 Container 的运行环境。在启动 Container 的时辰,NodeManager 会配置一些须要的情形变量以及相干文件;当全部筹备事变做好后,才会启动该 Container。启动后,NodeManager 会周期性地监督该 Container 运行占用的资源环境,如果高出了该 Container 所声明的资源量,则会 kill 掉该 Container 所代表的历程。

如图 1-11 所示,该集群上有两个使命(对应 Node2、Node6 上面的 AM),而且 Node2 上面的使命运行有 4 个 Container 来执利用命;而 Node6 上面的使命则有 2 个 Container 来执利用命。

学Hadoop你必必要知道的

5.Hadoop生态

Hadoop 的生态圈着实就是一群动物在狂欢。我们来看看一些首要的框架。

学Hadoop你必必要知道的

Hbase

HBase(Hadoop Database)是一个高靠得住性、高机能、面向列、可伸缩的漫衍式存储体系,操作 HBase 技能可在便宜 PC Server 上搭建起大局限布局化存储集群。

Hive

Hive 是成立在 Hadoop 上的数据客栈基本构架。它提供了一系列的器材,可以用来举办数据提取转化加载(ETL),这是一种可以存储、查询和说明存储在 Hadoop 中的大局限数据的机制。

Pig

Pig 是一个基于 Hadoop 的大局限数据说明平台,它提供的 SQL-LIKE 说话叫作 Pig Latin。该说话的编译器会把类 SQL 的数据说明哀求转换为一系列颠末优化处理赏罚的 Map-Reduce 运算。

Sqoop

Sqoop 是一款开源的器材,首要用于在 Hadoop(Hive)与传统的数据库(MySQL、post-gresql等)间举办数据的转达,可以将一个相关型数据库中的数据导入 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导入相关型数据库中,如下图所示。

学Hadoop你必必要知道的

Flume

Flume 是 Cloudera 提供的一个高可用、高靠得住、漫衍式的海量日记收罗、聚合和传输的体系,Flume 支持在日记体系中定制种种数据发送方,用于网络数据。同时,Flume 提供对数据举办简朴处理赏罚并写到各类数据接管方(可定制)的手段,如下图。

学Hadoop你必必要知道的

Oozie

Oozie 是基于 Hadoop 的调治器,以 XML 的情势写调治流程,可以调治 Mr、Pig、Hive、shell、jar 使命等。

首要的成果如下。

  • Workflow:次序执行流程节点,支持 fork(分支多个节点)、join(将多个节点归并为一个)。
  • Coordinator:按时触发 Workflow。
  • Bundle Job:绑定多个 Coordinator。

Chukwa

Chukwa 是一个开源的、用于监控大型漫衍式体系的数据网络体系。它构建在 Hadoop 的 HDFS 和 MapReduce 框架上,担任了 Hadoop 的可伸缩性和鲁棒性。Chukwa 还包括了一个强盛和机动的器材集,可用于展示、监控和说明已网络的数据。

ZooKeeper

ZooKeeper 是一个开放源码的漫衍式应用措施和谐处事,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 Hbase 的重要组件,如图 1-15 所示。它是一个为漫衍式应用提供同等性处事的软件,提供的成果包罗:设置维护、域名处事、漫衍式同步、组处事等。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读