中国IT史上两大严重事故对我们的教训及预防措施
2015年5月28日上午11点开始,携程观光网官方网站溘然表现404错误页,App也无法行使,营业彻底间断。 据称是由于乌云网发布了携程的一个裂痕“携程旅游网处事器设置不妥可导致官方邮件挟制”,携程修复后当天筹备上线宣布,但运维自动化体系有题目可能运维操纵有题目,导致“宣布不上去了,刚发就(根目次包罗代码)被(物理)删”,固然数据库还在,但应用都被删了,营业迟迟无律例复。 当日下战书,携程一度将流量切给了艺龙,但艺龙遭受不了而雪崩宕机。 当晚19时许,离宕机已往8个小时后,携程观光网手机APP起首规复,可是提交订单如故不不变。 当晚22:45,携程处事全面规复,至此,停服整整12个小时。 其时我提出在Business Continuity Plan(BCP,营业一连打算)之外尽快落实Disaster Recovery Plan(DRP,劫难规复打算)。 DCP的方针是:
当IDC机房物理无法毗连时,可快速异地重建出产体系。 它分为两个层级:
代码和设置的劫难可规复性;
数据的劫难可规复性。 时至今天着实通过以下做法间接到达了DCP的方针:
代码和设置的劫难可规复性:
Docker镜像:Web容器的设置都在Docker容器镜像里;
私有漫衍式镜像客栈,可以或许做到在殽杂云多机房遍地都有自动同步的镜像库;
异地双活机制便是说异地备份了Nginx/DNS等处事设置信息;
CloudEngine(我们的研发协作平台)里生涯了各类工程在差异情形里的应用属性(也是设置信息);
数据的劫难可规复性:
异地备份:在iDB(我们的数据库自动化运维平台)的辅佐下稀有据库自动备份以及备份的可规复性自动搜查,而且做了异地备份;
异地双活机制便是说异地同步了全量数据库。 2019年1月20日破晓1点到10点,整整9个小时,羊毛党徒们狂欢,从拼多多领取(而不是抢购)100元无门槛优惠券,据信拼多多丧失高达数万万元。 据传,这个无门槛优惠券现实上对应于已逾期的运营勾当,但因为操纵失误,导致破晓又从头上线。 p.s.: 劵的泉源:〃在拼多多官方的通告中指出此券为拼多多此前与江苏卫视《非诚勿扰》开展相助时,因节目次制必要非凡天生的优惠券范例,仅供现场高朋行使。除此之外,此种范例优惠券,从未在任何时辰、以任何方法呈此刻平台正常的线上促销勾当傍边,乃至从未有任何线上进口。〃 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |