AWS宕机11个小时,都是光纤被挖断惹的祸?
【51CTO.com原创稿件】2019年6月2日破晓两点开始,AWS北京地区呈现大面积瘫痪,据称是由于CN-NORTH-1地域有多处光缆在夜晚阶梯施工中被割断,导致该地区的第一个可用区中EC2实例不能会见,同时不能在整个CN-NORTH-1地区中新建EC2实例。
02:38,我们正在观测CN-NORTH-1的收集毗连题目。 04:17,我们正在观测CN-NORTH-1的全部可用区的EC2 API错误率上升的题目以及启动新的EC2实例失败的题目。我们也在观测CN-NORTH-1地区EBS API的错误率上升和耽误增大的题目。 06:36,我们已经找到了CN-NORTH-1区全部可用区中EC2 API和EBS API错误率上升的题目,以及新的EC2实例启动失败的题目的缘故起因,我们正在修复这个题目。 09:27,我们已经确定了CN2-NORTH-1地区内全部可用地区内新EC2实例的EC2和EBS API错误率增进以及启动失败的缘故起因,并正在全力办理题目。由于收集毗连导致无法乐成完成Runlnstances API哀求,将影响CN-NORTH-1全部地区。对个中一个可用区中的现有运行实例没有任何影响。 14:56,在北京时刻,2:00AM到13:48PM之间,在CN-NORTH-1地区,客户碰着在全部地区中EC2 API挪用失败率增高以及无法新建实例的妨碍,今朝妨碍已包办理,处事规复正常。 回首客岁的AWS妨碍变乱:3月,亚马逊AWS收集处事呈现题目,妨碍时刻不详。5月,北弗吉尼亚地域的数据中心呈现硬件妨碍,AWS再次呈现毗连题目,一连时刻30分钟。7月,AWS打点节制台妨碍,妨碍一连近6小时。11月,AWS韩国处事器间断,妨碍时刻一连一个多小时。对比之下,此次的从2点到14点,11个多小时的妨碍不得不称为最近AWS宕机变乱中的大事。 AWS此次的规复时刻为什么长达11个多小时?这不得不让人遐想到AWS没有做好收集冗余计划。收集冗余计划首要通过一再配置收集链路和收集装备冗余法子,并拟定收集重要体系和数据备份计策等。收集链路冗余指为了确保营业正常运转,除设置主线路外,同时做好第二种、第三种线路的陈设。 据悉,AWS北京地区行使的是光环新网的数据中心,该公司在北京拥有酒仙桥、太和桥、光环新谷、东直门、房山和亦庄6个数据中心,每个都拥有高达100G的BGP总出口带宽,多运营商通讯链路。光环新网并未对此事作出回应。 正值6.18中国电商大促阶段,不只亚马逊中国官网(www.amazon.cn)的页面一度瓦解,VIPKID、流利说、三星应用市肆等用户均受到差异水平的影响。笔者也是VIPKID的用户,所幸当天并未约课,只是无法完成课后功课及预习课程。而约了课的家长就较量抓狂,打消已约课程,从头约课… 固然云处事不行能担保100%不呈现题目,可是扎踏实实做好灾备,把宕机带来的影响降到最低是云厂商的重要职责。 对付用户来说,除了选择更安详的云处事外,行使多家云处事,实验多云计谋也是将来的重要偏向。 起首,优化了营业负载。因为按照企业负载的差异,为之匹配差异厂商间最得当的云技能,可以明明进步企业营业运转服从。 第二,确保处事的靠得住性。再靠得住的云处事也不能担保100%的安详,纵然云计较提供商在多个地区提供数据中心处事,并可以确保安详的冗余级别,但如故会存在各类突失变乱,影响云处事的靠得住性。而通过实验在多个云平台之间妨碍转移,无论产生什么范例的间断,都可以尽快完成灾备,保持应用措施的运行。 国际数据公司 IDC 的一项猜测表白:“截至到2020年,90%以上的企业将行使多个云处事僻静台”。闻名研究机构 451 Research 公司的观测也表现:“IT 的将来是多云和殽杂云,69%的受访企业暗示,打算到2019年回收各类范例的多云情形。” 最后笔者还想说,光缆、管道等基本办法的掩护也应受到重视,垂手可得的被粉碎,在当今的云期间,支付的价钱太大了! 【51CTO原创稿件,相助站点转载请注明原文作者和出处为51CTO.com】 点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |