一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解

发布时间：2019-05-16 04:06:19 所属栏目：教程来源：中国联通大数据

导读：在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中，我们先容了今朝联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件构成，而且着重详述了以Grafana为焦点的图形化展示成果。本文继承针对运维监控系统的另一重要内容，即告警

副问题[/!--empirenews.page--]

在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中，我们先容了今朝联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件构成，而且着重详述了以Grafana为焦点的图形化展示成果。

本文继承针对运维监控系统的另一重要内容，即告警说明、处理赏罚及发送成果举办分享。

一、为什么要选择Prometheus+Alertmanager

你的监控体系是否曾面对这些痛点：

告警信息推送无法分类，无法针对某部门人举办特定告警
一再告警或无用告警过多，重要告警易被隐蔽
监控体系无法提供可视化展示，或仅能部门展示
监控汗青数据不能二次查询或多维度查询，妨碍排查穷乏依据

对付营业量、平台主机量级较大的公司来说，行使以nagios+ganglia为首的传统的监控平台每每会碰着以上环境，显得力有未逮。颠末大量、富厚的拭魅战事变后，我们最后选择Prometheus+Alertmanager+钉钉的搭配作为联通大数据监控平台的告警说明、处理赏罚及发送器材组合。这套组合不只可以或许针对以上痛点逐一办理，也可以说是运维职员保障集群平台不变运行、妨碍排查、题目定位的一把利器。

在下面的章节中，笔者会对体系中的Prometheus、Alertmanager等组件一一举办先容。

二、Prometheus-数据存储及说明

1. Prometheus简介

一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控系统详解

基于上图，各人可以清楚的看到，Prometheus现实上是一个tsdb型数据库，全部的收罗数据以metric的情势生涯在个中，且可以或许将数据落到当地磁盘中，供行使职员二次查询数据。

Prometheus同时附加了强盛的计较与说明成果，可以或许操作各类labels与promql语句来完成多维度的监控数据查询，从而为妨碍排查与题目定位提供靠得住的证据。

监控法则方面，Prometheus可以按照promql来获取数据，而且与牢靠阈值举办计较较量，若超出正常范畴，则标志为告警信息，而且可以分组分标签界说告警描写，供后续Alertmanager行使。

在拓展性方面，Prometheus可以轻松的完成处事发明成果，并拥有每秒上万数据点的监控数据网络与说明的处理赏罚手段，完全挣脱了传统监控体系对监控主机数目的要求。今朝联通大数据平台呆板几千余台，监控实例过十万，监控实例指标过万万，Prometheus精良的机能可以做到美满支撑。

2. Prometheus特点

(1) 监控数据存储成果及多维度查询

下图中以一个简朴例子声名：该条查询可以看到某集群接口机15分钟内的体系负载，涉及到的标签维度为集群、主机IP、主机类械寥。在现实线上情形中，还可以添加多个标签来完成查询，而且可以操作promql特有的查询语句(sum、count_values、topk等)来完成越发富厚的多维度查询，提供靠得住、便捷、直观的监控数据供运维职员行使。

一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控系统详解

(2) 优越的自界说及第三方监控拓展成果

Pushgateway是Prometheus情形中的一个data_collector。把它界说为收罗者的缘故起因很简朴，尺度的Prometheus会回收pull模式从target中获取监控数据,但当因为外力缘故起因(如收集、硬件等)无法直接从target中拉取数据时，就要依赖Pushgateway了，请看下图：

一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控系统详解

大抵流程为client上陈设的剧本(支持多说话shell、python等)会网络target中的数据，而且以metric情势传送到Pushgateway中，只要担保client和Pushgateway可以或许正常通讯即可。Prometheus会凭证设置时刻，按时到Pushgateway上拉取监控数据，从而到达网络target的目标。

下图为Pushgetway发送数据的代码进程：

一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控系统详解

那么是否可以这么领略：对付常见组件(redis、mysql、nginx、haproxy等)，我们可以依赖现有的富厚client库，直接举办监控纳管;对付一些非凡组件或自界说营业，可通过多说话剧本收罗监控数据或营业埋点方法，把Pushgateway作为一个data_collector来网络各方数据，从而完成监控纳管。

(3) 精采的监控生态圈之常见client库

因为连年Prometheus的鼓起，开源社区中越来越多的人将本身的代码孝顺出来，使得Prometheus拥有复杂的client库(redis、mysql、nginx、haproxy等)，运维职员可以操作这些client实现即开即用即监控的成果。

3. 设置

global: 
scrape_interval: 15s 
evaluation_interval: 15s 
# scrape_timeout is set to the global default (10s). 
 
# Alertmanager configuration 
alerting: 
alertmanagers: 
- static_configs: 
- targets: ['IP:9093'] 
 
rule_files:   
# - "first_rules.yml" 
# - "second_rules.yml" 
 
# A scrape configuration containing exactly one endpoint to scrape: 
- job_name: 'prometheus' 
    scrape_interval: 15s   
static_configs: 
 - targets: ['localdns:9090']

三、Alertmanager-告警的分类搬运工

1. Alertmanager简介

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页

教你如何安装ghost xp	深度技术Ghost xp系统
ghost xp sp3电脑公司	8187无线网卡驱动,教您