加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解

发布时间:2019-05-16 04:06:19 所属栏目:教程 来源:中国联通大数据
导读:在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中,我们先容了今朝联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件构成,而且着重详述了以Grafana为焦点的图形化展示成果。 本文继承针对运维监控系统的另一重要内容,即告警

可以用一个营业场景来表明该特点:某大数据集群因为收集题目大面积瘫痪,上百个datanode触发断开告警,假如凭证传统监控模式的话,收到的将是上百条的告警短信形成短信轰炸。但假如行使分组特征,Alertmanager会将具有配合属性的告警归为一条发送到吸取端,清楚明白。

(2) 克制

照旧用营业场景来表明该特点:某主机上运行了一个mysql实例,若该主机宕机,则会收到多条关于mysql各项监控的告警信息,但假如设置了克制用法,只要触发该主机的宕机告警,上面mysql所触发的告警便会被克制掉。

(3) 沉默沉静

举例来说,某主机硬件主板破坏,但厂商反馈要2天后才气改换主板,一样平常环境下在改换主板前,该警报会一向大量一再发送。假云云时操作沉默沉静成果,在页面上设置沉默沉静选项即可停息此告警,待修复完成后打消沉默沉静法则即可。

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控系统详解

3. 设置

  1. global: 
  2.   resolve_timeout: 5m 
  3. templates: 
  4.   - 'template/*.tmpl'                 
  5. route: 
  6.   group_by: ['cluster'] 
  7.   group_wait: 10s                
  8.   group_interval: 20s                            
  9.   repeat_interval: 30m         
  10.   receiver: 'host'                   
  11.  
  12.   routes: 
  13. ###############example#################### 
  14.   - receiver: 'example' 
  15.     match: 
  16.       cluster: example 
  17.     continue: true 
  18. - name: 'example' 
  19.   webhook_configs: 
  20.   - url: 'http://localhost:8180/dingtalk/ops_dingding/send' 
  21.  
  22. inhibit_rules:                         
  23.   - source_match: 
  24.   - source_match_re: 
  25.     target_match_re: 
  26.            equal: ['ipAddress'] 

四、钉钉-最终告警吸取查阅

运维职员常用的发送告警器材有短信、邮件、企业微信和钉钉,之以是选择钉钉的缘故起因如下:

  • 短信:一样平常是通过往oracle插入告警信息走短信网关发送;利益是实时高效,但弱点是oracle支持的并发量有限。
  • 邮件:邮件告警的实时性是一个很大的题目,而且假如没有公道配置阈值,邮件轰炸会影响其他事变邮件的阅读。
  • 企业微信:企业微信不存在短信网关的并发限定,但破绽在于告警条数有限。
  • 钉钉:有强盛的分构成果且不限定告警条数;可按项目建设告警群,也利便扫除。

行使钉钉作为告警吸取器材,简朴来说就是在钉钉群聊中设置呆板人,每个呆板人会有一条独一的webhook,当吸取到来自Alertmanager的告警后就可以发送得手机端。本文不再详述钉钉呆板人的设置,感乐趣的同窗可以自行到网上查阅资料。

五、增补常识点

作为运维职员,做得最多的事变就是一般巡检、妨碍规复。公司集群局限越复杂,妨碍产生率和妨碍实例数也会成倍增进,信托每个运维人都领会过节沐日被姑且呼叫修复妨碍的经验。这里,笔者特殊孝顺一条“自动化规复”小贴士,解放随时守候呼叫的运维er,你值得拥有:

自动化浅显流程:通过收罗说明Prometheus里的告警数据,操作fabric或ansible等多线程安详并发长途毗连器材,执行相干脚色实例的规复事变。

一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控系统详解

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读