一套很专业的监控方案:HDFS监控落地背后的思索
慢节点首要特性是,落到该节点上的读、写较均匀值差距较大,但给他足够时刻,如故能返回正确功效。凡是导致慢节点呈现的缘故起因除呆板硬件、收集外,对应节点上的负载较大是另一个首要缘故起因。现实监控中,除监控节点上的读写耗时外,节点上的负载也必要重点监控。 按照现实必要,可以机动调解Datanode讲述时刻,可能开启“陈旧节点”(Stale Node)检测,以便Namenode精确辨认妨碍实例。涉及部门设置项:
4)容量 集群总空间、空间行使率 收罗项:PercentUsed HDFS UI耗费了很大篇幅来揭示存储空间相干指标,足以声名它的重要性。 空间行使率计较包括了处于“下线中”节点空间,这是一个陷阱。假若有节点处于下线状态,但它们代表的空间仍计较在总空间,假如下线节点过多,存在这样“怪象”:集群剩余空间许多,但已无空间可写。 另外,在Datanode空间筹划时,要预留一部门空间。HDFS预留空间有也许是其他措施行使,也有也许是文件删除后,但一向被引用,假如“Non DFS Used”一向增大,则必要追查详细缘故起因并优化,可以通过如下参数来配置预留空间:
作为HDFS运维开拓职员,需清晰此公式:Configured Capacity = Total Disk Space - Reserved Space = Remaining Space + DFS Used + Non DFS Used。 Namenode堆内存行使率 收罗项: HeapMemoryUsage.used/HeapMemoryUsage.committed 假如将此指标作为HDFS焦点指标,也是不为过的。元数据和Block映射干厦魅占有了Namenode大部门堆内存,这也是HDFS不得当存储大量小文件的缘故起因之一。堆内存行使过大,也许会呈现Namenode启动慢,隐藏FGC风险,因此,堆内存行使环境需重点监控。 现实中,堆内存行使率增进,不行停止,给出有用的几个方案:
尽量这些法子可以在很长时刻内,有用低落风险,但提前筹划好集群也是很有须要。 数据平衡度 收罗项: HDFS而言,数据存储平衡度,必然水平上抉择了它的安详性。现实中,按照各存储实例的空间行使率,来计较这组数据的尺度差,用以反馈各实例之间的数据平衡水平。 数据较大环境下,假如举办数据平衡则会较量耗时,尽量通过调解并发度、速率也很难快速的完成数据平衡。针对这种环境,可以实行优先下线空间已耗尽的实例,之后再扩容的方法来实现平衡的目标。 尚有一点需留意,在3.0版本之前,数据平衡只能是节点之间的平衡,不能实现节点内部差异数据盘的平衡。 RPC哀求行列的长度 收罗项:CallQueueLength(RPC哀求行列长度)。 文件数目 收罗项:FilesTotal 与堆内存行使率共同行使。每个文件体系工具(包罗文件、目次、Block数目)至少占据150字节堆内存,按照此,可以大致预估出一个Namenode可以生涯几多文件。按照文件与块数目之间的相关,也可以对块巨细做必然优化。 下线实例数 收罗项:NumDecommissioningDataNodes HDFS集群局限较大时,及时把握康健实例说,按期修复妨碍节点并实时上线,可觉得公司节减必然本钱。 5)其他 除上述首要指标外,处事器、历程JVM、依靠处事(Zookeeper、DNS)等通用监控计策也需添加。 四、HDFS监控落地 Grafana仪表盘揭示:首要用于处事巡检、妨碍定位(声名:Grafana官方提供的HDFS监控模板,数据指标相对较少)。 图6 HDFS部门集群Grafana仪表盘 ELK-Hadoop:首要用于全局日记检索,以及错误日记要害字监控。 图7 ES中搜刮HDFS集群日记 图8 日记处事搜刮HDFS集群日记 Hue、HDFS UI:首要用于HDFS题目排查与一般维护。 五、HDFS案例 案例1 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |