加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一套很专业的监控方案:HDFS监控落地背后的思索

发布时间:2019-02-21 07:39:28 所属栏目:教程 来源:李子树
导读:基于京东云的拭魅战履历,我们本日来聊聊HDFS相干的监控。 Hadoop漫衍式文件体系(HDFS)被计划成得当运行在通用硬件(commodity hardware)上的漫衍式文件体系。 HDFS能提供高吞吐量的数据会见,很是得当大局限数据集上的应用。在大数据生态圈中,HDFS是最重要

慢节点首要特性是,落到该节点上的读、写较均匀值差距较大,但给他足够时刻,如故能返回正确功效。凡是导致慢节点呈现的缘故起因除呆板硬件、收集外,对应节点上的负载较大是另一个首要缘故起因。现实监控中,除监控节点上的读写耗时外,节点上的负载也必要重点监控。

按照现实必要,可以机动调解Datanode讲述时刻,可能开启“陈旧节点”(Stale Node)检测,以便Namenode精确辨认妨碍实例。涉及部门设置项:

  • dfs.namenode.heartbeat.recheck-interval
  • dfs.heartbeat.interval
  • dfs.namenode.avoid.read.stale.datanode
  • dfs.namenode.avoid.write.stale.datanode
  • dfs.namenode.stale.datanode.interval

4)容量

集群总空间、空间行使率

收罗项:PercentUsed

HDFS UI耗费了很大篇幅来揭示存储空间相干指标,足以声名它的重要性。

空间行使率计较包括了处于“下线中”节点空间,这是一个陷阱。假若有节点处于下线状态,但它们代表的空间仍计较在总空间,假如下线节点过多,存在这样“怪象”:集群剩余空间许多,但已无空间可写。

另外,在Datanode空间筹划时,要预留一部门空间。HDFS预留空间有也许是其他措施行使,也有也许是文件删除后,但一向被引用,假如“Non DFS Used”一向增大,则必要追查详细缘故起因并优化,可以通过如下参数来配置预留空间:

  • dfs.datanode.du.reserved.calculator
  • dfs.datanode.du.reserved
  • dfs.datanode.du.reserved.pct

作为HDFS运维开拓职员,需清晰此公式:Configured Capacity = Total Disk Space - Reserved Space = Remaining Space + DFS Used + Non DFS Used。

Namenode堆内存行使率

收罗项:

HeapMemoryUsage.used/HeapMemoryUsage.committed

假如将此指标作为HDFS焦点指标,也是不为过的。元数据和Block映射干厦魅占有了Namenode大部门堆内存,这也是HDFS不得当存储大量小文件的缘故起因之一。堆内存行使过大,也许会呈现Namenode启动慢,隐藏FGC风险,因此,堆内存行使环境需重点监控。

现实中,堆内存行使率增进,不行停止,给出有用的几个方案:

  • 调解堆内存分派
  • 成立文件生命周期打点机制,实时整理部门无用文件
  • 小文件归并
  • 行使HDFS Federation横向扩展

尽量这些法子可以在很长时刻内,有用低落风险,但提前筹划好集群也是很有须要。

数据平衡度

收罗项:

HDFS而言,数据存储平衡度,必然水平上抉择了它的安详性。现实中,按照各存储实例的空间行使率,来计较这组数据的尺度差,用以反馈各实例之间的数据平衡水平。

数据较大环境下,假如举办数据平衡则会较量耗时,尽量通过调解并发度、速率也很难快速的完成数据平衡。针对这种环境,可以实行优先下线空间已耗尽的实例,之后再扩容的方法来实现平衡的目标。

尚有一点需留意,在3.0版本之前,数据平衡只能是节点之间的平衡,不能实现节点内部差异数据盘的平衡。

RPC哀求行列的长度

收罗项:CallQueueLength(RPC哀求行列长度)。

文件数目

收罗项:FilesTotal

与堆内存行使率共同行使。每个文件体系工具(包罗文件、目次、Block数目)至少占据150字节堆内存,按照此,可以大致预估出一个Namenode可以生涯几多文件。按照文件与块数目之间的相关,也可以对块巨细做必然优化。

下线实例数

收罗项:NumDecommissioningDataNodes

HDFS集群局限较大时,及时把握康健实例说,按期修复妨碍节点并实时上线,可觉得公司节减必然本钱。

5)其他

除上述首要指标外,处事器、历程JVM、依靠处事(Zookeeper、DNS)等通用监控计策也需添加。

四、HDFS监控落地

Grafana仪表盘揭示:首要用于处事巡检、妨碍定位(声名:Grafana官方提供的HDFS监控模板,数据指标相对较少)。

一套很专业的监控方案:HDFS监控落地背后的思索

图6 HDFS部门集群Grafana仪表盘

ELK-Hadoop:首要用于全局日记检索,以及错误日记要害字监控。

一套很专业的监控方案:HDFS监控落地背后的思索

图7 ES中搜刮HDFS集群日记

一套很专业的监控方案:HDFS监控落地背后的思索

图8 日记处事搜刮HDFS集群日记

Hue、HDFS UI:首要用于HDFS题目排查与一般维护。

五、HDFS案例

案例1

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读