监控大规模Hadoop集群，Prometheus大获全胜Zabbix？

发布时间：2021-05-31 23:24:27 所属栏目：大数据来源：互联网

导读：跟着公司营业成长，大数据集群局限正在不绝扩大，一些大型集群物理机节点乃至已近上千。面临云云局限复杂的集群，一套优越的监控体系是运维职员发明及处理赏罚妨碍的

跟着公司营业成长，大数据集群局限正在不绝扩大，一些大型集群物理机节点乃至已近上千。面临云云局限复杂的集群，一套优越的监控体系是运维职员发明及处理赏罚妨碍的要害利器。颠末多次选型和迭代，笔者选择了Prometheus，这款时下火热而强盛的开源监控组件为焦点来构建大数据集群监控平台。

最初的监控平台选型

公司最初回收的监控平台为Nagios+Ganglia或Zabbix+Grafana组合，但颠末上线后长时刻实践验证，发明这两个组合存在如下不尽人意之处：

Nagios+Ganglia

该搭配的首要题目在于Nagios只能对主机机能指标举办通例监控，在对大数据集群各组件举办监控时，则必要举办大量的自界说开拓事变，且对集群的监控维度并不全面。并且因为Nagiso没有存储汗青数据的成果，在面临一些集群机能说明或妨碍说明事变时，Nagios+Ganglia的搭配结果并不能到达运维职员的预期。

Zabbix+Ganglia

对比于前者，该搭配利益在于可以完成监控数据可视化的事变，在集群机能说明和妨碍说明方面可以或许实现运维职员的种种需求，且对外提供web打点页面，可以或许简化上手难度。固然云云，该搭配照旧存在一些题目，譬喻当集群到达必然数目局限时，监控存储数据库就会成为机能瓶颈，面临大局限的数据读写会捉襟见肘，导致Grafana查询迟钝乃至卡死。

监控平台选型优化

鉴于以上两种组合存在的弱点，按照现实事变必要，笔者对监控平台的选型举办了优化，选择了Prometheus+Alertmanager+Grafana的组合。之以是选择该组相助为平台焦点，是由于其具有以下几点上风：

内置优越的TSDB数据库，可以轻松应对大数据量并发查询，为运维职员提供要害指标;

强盛的Promql，可以通过种种内置函数，获取各维度搜刮监控数据用于Grafana出图;

Prometheus基于Go说话开拓，Go高效的运行服从，使其拥有生成的速率上风;

活泼的Github社区，提供富厚的Client库。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智