一份运维监控的秘笈！监控不到位，宕机两行泪

发布时间：2019-02-16 16:38:56 所属栏目：业界来源：京东云

导读：有许多文章都提到过白盒监控和黑盒监控，以及监控的四个黄金指标。关于白盒与黑盒监控的界说，这里不再赘述。一样平常来说，白盒与黑盒别离从内部和外部来监控体系的运行状况，譬喻呆板存活、CPU 内存行使率、营业日记、JMX 等监控都属于白盒监控，而外部端口

副问题[/!--empirenews.page--]

有许多文章都提到过白盒监控和黑盒监控，以及监控的四个黄金指标。关于白盒与黑盒监控的界说，这里不再赘述。一样平常来说，白盒与黑盒别离从内部和外部来监控体系的运行状况，譬喻呆板存活、CPU 内存行使率、营业日记、JMX 等监控都属于白盒监控，而外部端口探活、HTTP 探测以及端到端成果监控等则属于黑盒监控的领域。

本文将首要从白盒监控的收罗入手，解答关于新体系怎样添加监控的题目。

一份运维监控的秘笈！监控不到位，宕机两行泪

黑盒与白盒监控

监控指标的收罗

设置监控时，我们主要面临的是监控数据假如收罗的题目。一样平常我们可以把监控指标分为两类：基本监控和营业监控。

基本监控

包罗 CPU、内存、磁盘、端口和历程等呆板、收集的操纵体系级此外信息。凡是环境下，成熟的监控体系(譬喻开源的 Prometheus、Zabbix 等)均会提供基本监控项的收罗手段，这里不做过多先容。但必要留意的一点，呆板级此外基本监控指标一样平常并不能代表处事的真实运行状况，譬喻单台实例的妨碍对一个计划公道的漫衍式体系来说并不会带来严峻效果。以是只有团结营业相干监控指标，基本监控指标才故意义。

营业监控

营业监控指标由营业体系内部的处事发生，一样平常可以或许真实回响营业运行状态。计划公道的系同一样平常城市提供相干监控指标供监控体系收罗。监控数据的收罗要领一样平常可以分为以下几大类。

日记：日记可以包括处事运行的方方面面，是重要的监控数据来历。譬喻，通过 Nginx access 日记可以统计堕落误(5xx)、耽误(相应时刻)和流量，团结已知的容量上限就可以计较出饱和度。一样平常除监控体系提供的日记收罗插件外，如 Rsyslog、Logstash、Filebeat、Flume 等都是较量优越的日记收罗软件。
JMX：大都 Java 开拓的处事均可由 JMX 接口输出监控指标。不少监控体系也有集成 JMX 收罗插件，除此之外我们也可通过 jmxtrans、jmxcmd 器材举办收罗。
REST：提供 REST API 来举办监控数据的收罗，如 Hadoop、ElasticSearch。
OpenMetrics：得益于 Prometheus 的风行，作为 Prometheus 的监控数据收罗方案，OpenMetrics 也许很快会成为将来监控的业界尺度。今朝绝大部门热点开源处事均有官方或非官方的 exporter 可供行使。
呼吁行：一些处事提供当地的呼吁来输出监控指标。
主动上报：对付回收 PUSH 模子的监控体系来说，处事可以采纳主动上报的方法把监控指标 push 到监控体系，如 Java 处事可行使 Metrics 接口自界说 sink 输出。其它，运维也可以行使自界说的监控插件来完成监控的收罗。
埋点：埋点是侵入式的监控数据收罗方法，其利益是其可以更机动地为我们提供营业内部的监控指标，虽然弱点也很明明：必要在代码层面下手脚(经常必要研发支持，本钱较高)。
其余方法：以上未涵盖的监控指标收罗方法，譬喻 Zookeeper 的四字呼吁，MySQL 的 show status 呼吁。

以上列出了几种常见的监控指标收罗要领，在现实事变，假如没有现成的监控收罗插件，则必要我们自行开拓收罗剧本。

监控的四个黄金指标

无论营业体系怎样伟大，监控指标怎样目眩凌乱，但万变不离其宗，监控的目标无非是为相识处事运行状况、发明办事情障和辅佐定位妨碍缘故起因。为了告竣这个目标，Google SRE 总结的监控四个黄金指标对我们添加监控具有很是重要的指导意义。下图给出四个黄金指标所包括的首要监控指标，下面我们就这四个黄金指标别离睁开声名，并给出一些监控项的收罗实例。

一份运维监控的秘笈！监控不到位，宕机两行泪

四个黄金指标

错误：错误是指当前体系产生的错误哀求和错误率

错误是必要在添加监控时主要存眷的指标。

在添加错误相干监控时，我们应该存眷以下几个方面：

基本监控：宕机、磁盘(坏盘或文件体系错误)、历程或端口挂掉、收集丢包等妨碍。
营业监控：

焦点成果处理赏罚错误，每种体系都有特定的焦点成果，好比 HDFS 的文件块读写、Zookeeper 对 Key 的读写和修改操纵。
基本成果单位丢失或非常，这里的基本成果单位是指一个体系成果上的根基单元，譬喻 HDFS 的 Block、Kafka 的 Message，这种基本数据的丢失一样平常城市对营业成果造成直接的影响。
Master 妨碍，对付中心化的漫衍式体系来说，Master 的康健状况都是重中之重。譬喻 HDFS 的 NameNode、Zookeeper 的 Leader，ElasticSearch 的 MasterNode。
可用节点数，对付漫衍式体系来说，可用节点数也长短常重要的，好比 Zookeeper、ETCD 等体系必要满意可用节点数大于不行用节点数才气担保成果的正常。

留意：除白盒监控外，，首要成果或接口、以及内部存在明明界线的成果模块和上游依靠模块，都应该添加黑盒端到端监控。

耽误：处事哀求所需时刻

处事耽误的上升不只仅表此刻用户体验的降落，也有也许会导致哀求会萃并最终演变为整个营业体系的雪崩。

以下为耽误指标的首要存眷点：

基本监控：IO 守候、收集耽误;
营业监控：营业相干指标首要必要存眷焦点成果的相应时长。好比 Zookeeper 的耽误指标 zk_avg_latency，ElasticSearch 的索引、搜刮耽误和慢查询。

留意：与错误指标相同，白盒耽误指标凡是仅能代表体系内部耽误，提议为首要成果或接口添加黑盒监控来收罗端到端的耽误指标。

流量：当前体系的流量

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

宏光MINI GAMEBOY全面	美国初创公司Aquarian
新一代汽车芯片的设计	显示器常见背光种类盘