云“战疫”:8天扩容100万核,我们是这样跟踪的
常见的监控本领为阈值监控,对营业形态较量纯熟的开拓、运维职员在指标上配置一个“适当”的阈值,一旦偏离阈值,体系即发送告警到开拓职员。 然而阈值配置的公道性不易判定。在数万万、上亿用户的场景下,阈值少设或多设 0.01% 都代表数千、上万人的体验受损,并且差异时刻的数据,数据也会泛起必然的周期纪律性,如图二所示,简朴的阈值告警显然无法满意多样化的营业需求。 c. 题目发明的第一时刻,开拓、运维职员急切必要知道题目的示意根因。以便快速参与处理赏罚,怎样精确发明根因? 营业妨碍时,在大盘面,也许看到的是整个乐成率(或用户量)的降落。但引起降落的也许性是较多的。必需在第一时刻找到缘故起因,深入排查,以镌汰营业妨碍时刻。 监控的存在是为营业处事的,团队一路举办了见面,很快形成了办理方案并实验: 梳理重点模块、重点指标。成立直观的营业可视察性 基于营业架构分解、营业形态领略,我们梳理起多少个要害指标。所谓要害即营业存亡指标,这些指标可以从以下维度来权衡: 1、对用户有损 用户有损的指标有:在线用户量,用户登岸乐成率,用户进房乐成率,要害接口挪用乐成率… 2、对收入有损 购置乐成率、付费乐成率、收入趋势等 …… 3、资源风险相干 分SET、分模块CPU负载、出口带宽等、以便实时参与调治。一样平常每个SET的容量是有限的,必需实时调查各SET容量水位及负载趋势,一方面体系自行举办SET间用户调治,一方面工钱可在须要时举办调治过问。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |