一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解
副问题[/!--empirenews.page--]
在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中,我们先容了今朝联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件构成,而且着重详述了以Grafana为焦点的图形化展示成果。 本文继承针对运维监控系统的另一重要内容,即告警说明、处理赏罚及发送成果举办分享。 一、为什么要选择Prometheus+Alertmanager 你的监控体系是否曾面对这些痛点:
对付营业量、平台主机量级较大的公司来说,行使以nagios+ganglia为首的传统的监控平台每每会碰着以上环境,显得力有未逮。颠末大量、富厚的拭魅战事变后,我们最后选择Prometheus+Alertmanager+钉钉的搭配作为联通大数据监控平台的告警说明、处理赏罚及发送器材组合。这套组合不只可以或许针对以上痛点逐一办理,也可以说是运维职员保障集群平台不变运行、妨碍排查、题目定位的一把利器。 在下面的章节中,笔者会对体系中的Prometheus、Alertmanager等组件一一举办先容。 二、Prometheus-数据存储及说明 1. Prometheus简介 基于上图,各人可以清楚的看到,Prometheus现实上是一个tsdb型数据库,全部的收罗数据以metric的情势生涯在个中,且可以或许将数据落到当地磁盘中,供行使职员二次查询数据。 Prometheus同时附加了强盛的计较与说明成果,可以或许操作各类labels与promql语句来完成多维度的监控数据查询,从而为妨碍排查与题目定位提供靠得住的证据。 监控法则方面,Prometheus可以按照promql来获取数据,而且与牢靠阈值举办计较较量,若超出正常范畴,则标志为告警信息,而且可以分组分标签界说告警描写,供后续Alertmanager行使。 在拓展性方面,Prometheus可以轻松的完成处事发明成果,并拥有每秒上万数据点的监控数据网络与说明的处理赏罚手段,完全挣脱了传统监控体系对监控主机数目的要求。今朝联通大数据平台呆板几千余台,监控实例过十万,监控实例指标过万万,Prometheus精良的机能可以做到美满支撑。 2. Prometheus特点 (1) 监控数据存储成果及多维度查询 下图中以一个简朴例子声名:该条查询可以看到某集群接口机15分钟内的体系负载,涉及到的标签维度为集群、主机IP、主机类械寥。在现实线上情形中,还可以添加多个标签来完成查询,而且可以操作promql特有的查询语句(sum、count_values、topk等)来完成越发富厚的多维度查询,提供靠得住、便捷、直观的监控数据供运维职员行使。 (2) 优越的自界说及第三方监控拓展成果 Pushgateway是Prometheus情形中的一个data_collector。把它界说为收罗者的缘故起因很简朴,尺度的Prometheus会回收pull模式从target中获取监控数据,但当因为外力缘故起因(如收集、硬件等)无法直接从target中拉取数据时,就要依赖Pushgateway了,请看下图: 大抵流程为client上陈设的剧本(支持多说话shell、python等)会网络target中的数据,而且以metric情势传送到Pushgateway中,只要担保client和Pushgateway可以或许正常通讯即可。Prometheus会凭证设置时刻,按时到Pushgateway上拉取监控数据,从而到达网络target的目标。 下图为Pushgetway发送数据的代码进程: 那么是否可以这么领略:对付常见组件(redis、mysql、nginx、haproxy等),我们可以依赖现有的富厚client库,直接举办监控纳管;对付一些非凡组件或自界说营业,可通过多说话剧本收罗监控数据或营业埋点方法,把Pushgateway作为一个data_collector来网络各方数据,从而完成监控纳管。 (3) 精采的监控生态圈之常见client库 因为连年Prometheus的鼓起,开源社区中越来越多的人将本身的代码孝顺出来,使得Prometheus拥有复杂的client库(redis、mysql、nginx、haproxy等),运维职员可以操作这些client实现即开即用即监控的成果。 3. 设置
三、Alertmanager-告警的分类搬运工 1. Alertmanager简介 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |