加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

运维监控的终极秘籍,盘它!

发布时间:2019-05-06 18:40:52 所属栏目:教程 来源:京东云
导读:一样平常来说,白盒与黑盒别离从内部和外部来监控体系的运行状况,譬喻呆板存活、CPU内存行使率、营业日记、JMX等监控都属于白盒监控,而外部端口探活、HTTP探测以及端到端成果监控等则属于黑盒监控的领域。 下面将首要从白盒监控的收罗入手,解答上面关于新系
副问题[/!--empirenews.page--]

一样平常来说,白盒与黑盒别离从内部和外部来监控体系的运行状况,譬喻呆板存活、CPU内存行使率、营业日记、JMX等监控都属于白盒监控,而外部端口探活、HTTP探测以及端到端成果监控等则属于黑盒监控的领域。

下面将首要从白盒监控的收罗入手,解答上面关于新体系怎样添加监控的题目。

运维监控的终极秘笈,盘它!

图 1 黑盒与白盒监控

监控指标的收罗

设置监控时,我们主要面临的是监控数据怎样收罗的题目。一样平常我们可以把监控指标分为两类:基本监控和营业监控。

基本监控

包罗CPU、内存、磁盘、端口和历程等呆板、收集的操纵体系级此外信息。凡是环境下,成熟的监控体系(譬喻开源的Prometheus、Zabbix等)均会提供基本监控项的收罗手段,这里不做过多先容。但必要留意的一点,呆板级此外基本监控指标一样平常并不能代表处事的真实运行状况,譬喻单台实例的妨碍对一个计划公道的漫衍式体系来说并不会带来严峻效果。以是只有团结营业相干监控指标,基本监控指标才故意义。

营业监控

营业监控指标由营业体系内部的处事发生,一样平常可以或许真实回响营业运行状态。计划公道的系同一样平常城市提供相干监控指标供监控体系收罗。监控数据的收罗要领一样平常可以分为以下几大类:

  • 日记:日记可以包括处事运行的方方面面,是重要的监控数据来历。譬喻,通过Nginx access日记可以统计堕落误(5xx)、耽误(相应时刻)和流量,团结已知的容量上限就可以计较出饱和度。一样平常除监控体系提供的日记收罗插件外,如Rsyslog、Logstash、Filebeat、Flume等都是较量优越的日记收罗软件
  • JMX:大都Java开拓的处事均可由JMX接口输出监控指标。不少监控体系也有集成JMX收罗插件,除此之外我们也可通过jmxtrans、jmxcmd器材举办收罗
  • REST:提供REST API来举办监控数据的收罗,如Hadoop、ElasticSearch
  • OpenMetrics:得益于Prometheus的风行,作为Prometheus的监控数据收罗方案,OpenMetrics也许很快会成为将来监控的业界尺度。今朝绝大部门热点开源处事均有官方或非官方的exporter可供行使
  • 呼吁行:一些处事提供当地的呼吁来输出监控指标
  • 主动上报:对付回收PUSH模子的监控体系来说,处事可以采纳主动上报的方法把监控指标push到监控体系,如Java处事可行使Metrics接口自界说sink输出。其它,运维也可以行使自界说的监控插件来完成监控的收罗
  • 埋点:埋点是侵入式的监控数据收罗方法,其利益是其可以更机动地为我们提供营业内部的监控指标,虽然弱点也很明明:必要在代码层面下手脚(经常必要研发支持,本钱较高)
  • 其余方法:以上未涵盖的监控指标收罗方法,譬喻Zookeeper的四字呼吁,MySQL的show status呼吁

以上列出了几种常见的监控指标收罗要领,在现实事变,假如没有现成的监控收罗插件,则必要我们自行开拓收罗剧本。

四个黄金指标

运维监控的终极秘笈,盘它!

图 2 四个黄金指标

无论营业体系怎样伟大,监控指标怎样目眩凌乱,但万变不离其宗,监控的目标无非是为相识处事运行状况、发明办事情障和辅佐定位妨碍缘故起因。为了告竣这个目标,Google SRE总结的监控四个黄金指标对我们添加监控具有很是重要的指导意义。图 2给出四个黄金指标所包括的首要监控指标,下面我们就这四个黄金指标别离睁开声名,并给出一些监控项的收罗实例。

错误:错误是指当前体系产生的错误哀求

和错误率

声名:

错误是必要在添加监控时主要存眷的指标。在添加错误相干监控时,我们应该存眷以下几个方面:

基本监控:宕机、磁盘(坏盘或文件体系错误)、历程或端口挂掉、收集丢包等妨碍

营业监控:

  • 焦点成果处理赏罚错误,每种体系都有特定的焦点成果,好比HDFS的文件块读写、Zookeeper对Key的读写和修改操纵
  • 基本成果单位丢失或非常,这里的基本成果单位是指一个体系成果上的根基单元,譬喻HDFS的Block、Kafka的Message,这种基本数据的丢失一样平常城市对营业成果造成直接的影响
  • Master妨碍,对付中心化的漫衍式体系来说,Master的康健状况都是重中之重。譬喻HDFS的NameNode、Zookeeper的Leader,ElasticSearch的MasterNode
  • 可用节点数,对付漫衍式体系来说,可用节点数也长短常重要的,好比Zookeeper、ETCD等体系必要满意可用节点数大于不行用节点数才气担保成果的正常

留意:除白盒监控外,首要成果或接口、以及内部存在明明界线的成果模块和上游依靠模块,都应该添加黑盒端到端监控。

耽误:处事哀求所需时刻

声名:

处事耽误的上升不只仅表此刻用户体验的降落,也有也许会导致哀求会萃并最终演变为整个营业体系的雪崩。以下为耽误指标的首要存眷点:

  • 基本监控:IO守候、收集耽误
  • 营业监控:营业相干指标首要必要存眷焦点成果的相应时长。好比Zookeeper的耽误指标zk_avg_latency,ElasticSearch的索引、搜刮耽误和慢查询

留意:与错误指标相同,白盒耽误指标凡是仅能代表体系内部耽误,提议为首要成果或接口添加黑盒监控来收罗端到端的耽误指标。

流量:当前体系的流量

声名:

流量指标可以指体系层面的收集和磁盘IO,处事层面的QpS、PV和UV等数据。流量和突增或突减都也许预示着体系也许呈现题目(进攻变乱、体系妨碍…)。

  • 基本监控:磁盘和网卡IO
  • 营业监控:焦点成果流量,譬喻通过QpS/PV/UV等凡是可以或许代表Web处事的流量,而ElasticSearch的流量可用索引建设速度、搜刮速度暗示

饱和度:用于权衡当前处事的操作率

声名:

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读