加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解

发布时间:2019-05-16 04:06:19 所属栏目:教程 来源:中国联通大数据
导读:在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中,我们先容了今朝联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件构成,而且着重详述了以Grafana为焦点的图形化展示成果。 本文继承针对运维监控系统的另一重要内容,即告警
副问题[/!--empirenews.page--]

在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中,我们先容了今朝联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件构成,而且着重详述了以Grafana为焦点的图形化展示成果。

本文继承针对运维监控系统的另一重要内容,即告警说明、处理赏罚及发送成果举办分享。

一、为什么要选择Prometheus+Alertmanager

你的监控体系是否曾面对这些痛点:

  • 告警信息推送无法分类,无法针对某部门人举办特定告警
  • 一再告警或无用告警过多,重要告警易被隐蔽
  • 监控体系无法提供可视化展示,或仅能部门展示
  • 监控汗青数据不能二次查询或多维度查询,妨碍排查穷乏依据

对付营业量、平台主机量级较大的公司来说,行使以nagios+ganglia为首的传统的监控平台每每会碰着以上环境,显得力有未逮。颠末大量、富厚的拭魅战事变后,我们最后选择Prometheus+Alertmanager+钉钉的搭配作为联通大数据监控平台的告警说明、处理赏罚及发送器材组合。这套组合不只可以或许针对以上痛点逐一办理,也可以说是运维职员保障集群平台不变运行、妨碍排查、题目定位的一把利器。

在下面的章节中,笔者会对体系中的Prometheus、Alertmanager等组件一一举办先容。

二、Prometheus-数据存储及说明

1. Prometheus简介

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控系统详解

基于上图,各人可以清楚的看到,Prometheus现实上是一个tsdb型数据库,全部的收罗数据以metric的情势生涯在个中,且可以或许将数据落到当地磁盘中,供行使职员二次查询数据。

Prometheus同时附加了强盛的计较与说明成果,可以或许操作各类labels与promql语句来完成多维度的监控数据查询,从而为妨碍排查与题目定位提供靠得住的证据。

监控法则方面,Prometheus可以按照promql来获取数据,而且与牢靠阈值举办计较较量,若超出正常范畴,则标志为告警信息,而且可以分组分标签界说告警描写,供后续Alertmanager行使。

在拓展性方面,Prometheus可以轻松的完成处事发明成果,并拥有每秒上万数据点的监控数据网络与说明的处理赏罚手段,完全挣脱了传统监控体系对监控主机数目的要求。今朝联通大数据平台呆板几千余台,监控实例过十万,监控实例指标过万万,Prometheus精良的机能可以做到美满支撑。

2. Prometheus特点

(1) 监控数据存储成果及多维度查询

下图中以一个简朴例子声名:该条查询可以看到某集群接口机15分钟内的体系负载,涉及到的标签维度为集群、主机IP、主机类械寥。在现实线上情形中,还可以添加多个标签来完成查询,而且可以操作promql特有的查询语句(sum、count_values、topk等)来完成越发富厚的多维度查询,提供靠得住、便捷、直观的监控数据供运维职员行使。

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控系统详解

(2) 优越的自界说及第三方监控拓展成果

Pushgateway是Prometheus情形中的一个data_collector。把它界说为收罗者的缘故起因很简朴,尺度的Prometheus会回收pull模式从target中获取监控数据,但当因为外力缘故起因(如收集、硬件等)无法直接从target中拉取数据时,就要依赖Pushgateway了,请看下图:

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控系统详解

大抵流程为client上陈设的剧本(支持多说话shell、python等)会网络target中的数据,而且以metric情势传送到Pushgateway中,只要担保client和Pushgateway可以或许正常通讯即可。Prometheus会凭证设置时刻,按时到Pushgateway上拉取监控数据,从而到达网络target的目标。

下图为Pushgetway发送数据的代码进程:

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控系统详解

那么是否可以这么领略:对付常见组件(redis、mysql、nginx、haproxy等),我们可以依赖现有的富厚client库,直接举办监控纳管;对付一些非凡组件或自界说营业,可通过多说话剧本收罗监控数据或营业埋点方法,把Pushgateway作为一个data_collector来网络各方数据,从而完成监控纳管。

(3) 精采的监控生态圈之常见client库

因为连年Prometheus的鼓起,开源社区中越来越多的人将本身的代码孝顺出来,使得Prometheus拥有复杂的client库(redis、mysql、nginx、haproxy等),运维职员可以操作这些client实现即开即用即监控的成果。

3. 设置

  1. global: 
  2. scrape_interval: 15s 
  3. evaluation_interval: 15s 
  4. # scrape_timeout is set to the global default (10s). 
  5.  
  6. # Alertmanager configuration 
  7. alerting: 
  8. alertmanagers: 
  9. - static_configs: 
  10. - targets: ['IP:9093'] 
  11.  
  12. rule_files:   
  13. # - "first_rules.yml" 
  14. # - "second_rules.yml" 
  15.  
  16. # A scrape configuration containing exactly one endpoint to scrape: 
  17. - job_name: 'prometheus' 
  18.     scrape_interval: 15s   
  19. static_configs: 
  20.  - targets: ['localdns:9090'] 

三、Alertmanager-告警的分类搬运工

1. Alertmanager简介

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读