加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

那些年,云厂商宕机教会我们的事

发布时间:2018-07-02 11:32:48 所属栏目:云计算 来源:InfoQ
导读:北京时刻 6 月 27 日下战书,阿里云挂了。市场占据率 47.6% 的阿里云宕机,影响的是中国互联网的半壁山河。对此,坊间据说伴着吐槽声升沉不绝,乃至有人声称此次事情是由两个演习生造成。 变乱产生后,阿里云在敏捷人肉修复妨碍后,颁发声名: 对付这次妨碍

陈皓重申了其概念:一个体系的高可用的身分许多,不只仅只是体系架构,更重要的是——高可用运维。而且,他以为对付高可用的运维,平常的妨碍练习是很重要的。AWS 平常应该没有响应的妨碍练习,以是导致要么恒久不出妨碍,一出就出个大的让你措手不及。

好比,Facebook每个季度扔个骰子,随构造掉一个IDC一天。Netflix 有 Chaos Monkey,路透每年也会做一次大局限的妨碍演练——劫难练习。

在陈天看来,这种容错的训练得当大一些且工程团队有余力的公司。为什么Netflix 重度行使 AWS,却在历次 AWS 的宕机中毫发无损?着实Netflix之前也深深地被云的「不不变性」刺痛过,而现在他们的 Chaos Monkey(之后成长为 simian army)处事,会随时随地模仿各类宕机环境,侵扰出产情形。好比说对付此次变乱的演练,可以设置 simian army 去侵扰 S3:simianarmy.chaos.fails3.enabled = true.

这样,这群厌恶的猴子就会在不知情的环境下随机把处事器的 /etc/hosts 改掉,让全部的 S3 API 不行用。云云就可以体验平常很难碰着的 S3 不行会见的场景,进而找到响应的对策(留意:请在 staging 情形下审慎实行)。

5、处理赏罚危急的方法能看出一个公司的高度

陈皓暗示很是喜好GitLab、AWS这样向公共果真其妨碍及处理赏罚流程,哪怕因由是一个初级的工钱错误,也不会袒护、不会文过饰非。

假如你是一个技能公司,你就会更多的信托技能而不是打点。信托技能会用技能来办理题目,信托打点,那就只会有制度、流程和代价观来办理题目。没有人乐意看到题目的产生;可是题目呈现后,最重要的办理反思并从中罗致教导:这莫非不是技强人应有的傲骨吗?

你认为呢?

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读