加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

云“战疫”:8天扩容100万核,我们是这样跟踪的

发布时间:2021-06-02 01:43:41 所属栏目:创业 来源:互联网
导读:常见的监控本领为阈值监控,对营业形态较量纯熟的开拓、运维职员在指标上配置一个适当的阈值,一旦偏离阈值,体系即发送告警到开拓职员。 然而阈值配置的公道性

常见的监控本领为阈值监控,对营业形态较量纯熟的开拓、运维职员在指标上配置一个“适当”的阈值,一旦偏离阈值,体系即发送告警到开拓职员。

然而阈值配置的公道性不易判定。在数万万、上亿用户的场景下,阈值少设或多设 0.01% 都代表数千、上万人的体验受损,并且差异时刻的数据,数据也会泛起必然的周期纪律性,如图二所示,简朴的阈值告警显然无法满意多样化的营业需求。

c. 题目发明的第一时刻,开拓、运维职员急切必要知道题目的示意根因。以便快速参与处理赏罚,怎样精确发明根因?

营业妨碍时,在大盘面,也许看到的是整个乐成率(或用户量)的降落。但引起降落的也许性是较多的。必需在第一时刻找到缘故起因,深入排查,以镌汰营业妨碍时刻。

监控的存在是为营业处事的,团队一路举办了见面,很快形成了办理方案并实验:

梳理重点模块、重点指标。成立直观的营业可视察性

基于营业架构分解、营业形态领略,我们梳理起多少个要害指标。所谓要害即营业存亡指标,这些指标可以从以下维度来权衡:

1、对用户有损

用户有损的指标有:在线用户量,用户登岸乐成率,用户进房乐成率,要害接口挪用乐成率…

2、对收入有损

购置乐成率、付费乐成率、收入趋势等 ……

3、资源风险相干

分SET、分模块CPU负载、出口带宽等、以便实时参与调治。一样平常每个SET的容量是有限的,必需实时调查各SET容量水位及负载趋势,一方面体系自行举办SET间用户调治,一方面工钱可在须要时举办调治过问。

云“战疫”:8天扩容100万核,我们是这样跟踪的

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读