加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

六个人如何运维一万台服务器?

发布时间:2018-01-06 21:44:50 所属栏目:建站 来源:51CTO技术栈
导读:副问题#e# 注:本日给各人分享的主题是“去哪儿网应用运维自动化演进之路”。自动化构建进程中所碰着的障碍以及我们是怎么样超过这些障碍,我们碰着了哪些坑,以及怎么填平这些坑的进程。 我 2013 年插手去哪儿网,一向在从事运维开拓事变。去哪儿网运维开

监控报警

下面看一下我们是怎么在运维平台去做监控报警的。作为一个互联网公司,担保 7x24 小时提供处事是一个最根基的要求,我们要怎么去担保 7x24 小时处事?

若是说体系有题目的时辰,我们可以或许提前预警发明,等体系真正呈现题目的时辰,我们可以或许实时的发明。要担保这两点,我们就必要监控报警体系。

六小我私人怎样运维一万台处事器?

去哪儿网的监控报警体系也是经验了很长时刻的挣扎,刚开始每个部分城市维护本身的一套体系,刚开始是 Cacti 和 Nagios 这两个模块去搭建的,这样存在什么题目?

六小我私人怎样运维一万台处事器?

  • Cacti 陈设在单机上,不能横向拓展,导致机能较量差。若是单机呈现非常乃至宕机,那我们的监控报警体系就完全不行用,以是这是一个非高可用的方案。

  • 每个部分城市维护一套本身的监控体系,乃至较量大的部分,像旅馆机票这种大部分,他们也许会维护许多套,每一套都必要有专门的职员来运维,运维本钱也很是高。

因为之前的体系没有很好的权限打点,这个体系只能由专门的人来认真,由于铺开给其他人权限是较量伤害的,也许有人不警惕操纵了什么,把报警删掉可能修改报警设置,以是只有把报警交给专人认真。

要定制一个报警监控雷同本钱很是高,我们必要接洽本身的相干认真人,然后再去报警设置。

开拓职员认为太贫困了,爽性不做了,可能做得很是少,导致我们监控的面不足全,也许有一些非常乃至是妨碍都没有实时发明,服从是较量低下的。

怎么办理这个题目?我们做了一个公司级的同一监控报警平台 Watcher 。

报警平台有这样几个方针:

  • 高可用,一台呆板或几台呆板挂了,对我们没有影响可能影响很小。

  • (编辑:湖南网)

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读