六个人如何运维一万台服务器?
监控报警下面看一下我们是怎么在运维平台去做监控报警的。作为一个互联网公司,担保 7x24 小时提供处事是一个最根基的要求,我们要怎么去担保 7x24 小时处事? 若是说体系有题目的时辰,我们可以或许提前预警发明,等体系真正呈现题目的时辰,我们可以或许实时的发明。要担保这两点,我们就必要监控报警体系。 去哪儿网的监控报警体系也是经验了很长时刻的挣扎,刚开始每个部分城市维护本身的一套体系,刚开始是 Cacti 和 Nagios 这两个模块去搭建的,这样存在什么题目?
因为之前的体系没有很好的权限打点,这个体系只能由专门的人来认真,由于铺开给其他人权限是较量伤害的,也许有人不警惕操纵了什么,把报警删掉可能修改报警设置,以是只有把报警交给专人认真。 要定制一个报警监控雷同本钱很是高,我们必要接洽本身的相干认真人,然后再去报警设置。 开拓职员认为太贫困了,爽性不做了,可能做得很是少,导致我们监控的面不足全,也许有一些非常乃至是妨碍都没有实时发明,服从是较量低下的。 怎么办理这个题目?我们做了一个公司级的同一监控报警平台 Watcher 。 报警平台有这样几个方针:
|