一套很专业的监控方案：HDFS监控落地背后的思索

发布时间：2019-02-21 07:39:28 所属栏目：教程来源：李子树

导读：基于京东云的拭魅战履历，我们本日来聊聊HDFS相干的监控。 Hadoop漫衍式文件体系(HDFS)被计划成得当运行在通用硬件(commodity hardware)上的漫衍式文件体系。 HDFS能提供高吞吐量的数据会见，很是得当大局限数据集上的应用。在大数据生态圈中，HDFS是最重要

慢节点首要特性是，落到该节点上的读、写较均匀值差距较大，但给他足够时刻，如故能返回正确功效。凡是导致慢节点呈现的缘故起因除呆板硬件、收集外，对应节点上的负载较大是另一个首要缘故起因。现实监控中，除监控节点上的读写耗时外，节点上的负载也必要重点监控。

按照现实必要，可以机动调解Datanode讲述时刻，可能开启“陈旧节点”(Stale Node)检测，以便Namenode精确辨认妨碍实例。涉及部门设置项：

dfs.namenode.heartbeat.recheck-interval
dfs.heartbeat.interval
dfs.namenode.avoid.read.stale.datanode
dfs.namenode.avoid.write.stale.datanode
dfs.namenode.stale.datanode.interval

4)容量

集群总空间、空间行使率

收罗项：PercentUsed

HDFS UI耗费了很大篇幅来揭示存储空间相干指标，足以声名它的重要性。

空间行使率计较包括了处于“下线中”节点空间，这是一个陷阱。假若有节点处于下线状态，但它们代表的空间仍计较在总空间，假如下线节点过多，存在这样“怪象”：集群剩余空间许多，但已无空间可写。

另外，在Datanode空间筹划时，要预留一部门空间。HDFS预留空间有也许是其他措施行使，也有也许是文件删除后，但一向被引用，假如“Non DFS Used”一向增大，则必要追查详细缘故起因并优化，可以通过如下参数来配置预留空间：

dfs.datanode.du.reserved.calculator
dfs.datanode.du.reserved
dfs.datanode.du.reserved.pct

作为HDFS运维开拓职员，需清晰此公式：Configured Capacity = Total Disk Space - Reserved Space = Remaining Space + DFS Used + Non DFS Used。

Namenode堆内存行使率

收罗项：

HeapMemoryUsage.used/HeapMemoryUsage.committed

假如将此指标作为HDFS焦点指标，也是不为过的。元数据和Block映射干厦魅占有了Namenode大部门堆内存，这也是HDFS不得当存储大量小文件的缘故起因之一。堆内存行使过大，也许会呈现Namenode启动慢，隐藏FGC风险，因此，堆内存行使环境需重点监控。

现实中，堆内存行使率增进，不行停止，给出有用的几个方案：

调解堆内存分派
成立文件生命周期打点机制，实时整理部门无用文件
小文件归并
行使HDFS Federation横向扩展

尽量这些法子可以在很长时刻内，有用低落风险，但提前筹划好集群也是很有须要。

数据平衡度

收罗项：

HDFS而言，数据存储平衡度，必然水平上抉择了它的安详性。现实中，按照各存储实例的空间行使率，来计较这组数据的尺度差，用以反馈各实例之间的数据平衡水平。

数据较大环境下，假如举办数据平衡则会较量耗时，尽量通过调解并发度、速率也很难快速的完成数据平衡。针对这种环境，可以实行优先下线空间已耗尽的实例，之后再扩容的方法来实现平衡的目标。

尚有一点需留意，在3.0版本之前，数据平衡只能是节点之间的平衡，不能实现节点内部差异数据盘的平衡。

RPC哀求行列的长度

收罗项：CallQueueLength(RPC哀求行列长度)。

文件数目

收罗项：FilesTotal

与堆内存行使率共同行使。每个文件体系工具(包罗文件、目次、Block数目)至少占据150字节堆内存，按照此，可以大致预估出一个Namenode可以生涯几多文件。按照文件与块数目之间的相关，也可以对块巨细做必然优化。

下线实例数

收罗项：NumDecommissioningDataNodes

HDFS集群局限较大时，及时把握康健实例说，按期修复妨碍节点并实时上线，可觉得公司节减必然本钱。

5)其他

除上述首要指标外，处事器、历程JVM、依靠处事(Zookeeper、DNS)等通用监控计策也需添加。

四、HDFS监控落地

Grafana仪表盘揭示：首要用于处事巡检、妨碍定位(声名：Grafana官方提供的HDFS监控模板，数据指标相对较少)。

一套很专业的监控方案：HDFS监控落地背后的思索

图6 HDFS部门集群Grafana仪表盘

ELK-Hadoop：首要用于全局日记检索，以及错误日记要害字监控。

一套很专业的监控方案：HDFS监控落地背后的思索

图7 ES中搜刮HDFS集群日记

一套很专业的监控方案：HDFS监控落地背后的思索

图8 日记处事搜刮HDFS集群日记

Hue、HDFS UI：首要用于HDFS题目排查与一般维护。

五、HDFS案例

案例1

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

教你如何安装ghost xp	深度技术Ghost xp系统
ghost xp sp3电脑公司	8187无线网卡驱动,教您