加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

六小我私人怎样运维一万台处事器?

发布时间:2017-12-19 16:41:39 所属栏目:建站 来源:51CTO技术栈
导读:副问题#e# 注:本日给各人分享的主题是“去哪儿网应用运维自动化演进之路”。自动化构建进程中所碰着的障碍以及我们是怎么样超过这些障碍,我们碰着了哪些坑,以及怎么填平这些坑的进程。 我 2013 年插手去哪儿网,一向在从事运维开拓事变。去哪儿网运维开

在上面的集群架构图里,最下边绿色的是 Graphite 原有的组件,在原有组件上我们本身开拓了几个相干的组件。

第一个是 Relay ,每个指标打过来之后,我们通过 Relay 把指标漫衍在多台呆板上,这个是通过同等性哈希来实现的。

等我们取数的时辰, Graphite-api 这部门也是我们本身开拓的, Graphite-api 里也有同样的同等性哈希算法,通过这个算法找到这个指标在这个集群的哪一个呆板上,挪用这个呆板上的 Graphite-web 下的 api,然后拿相干的数据。

这是一个集群的架构,我们有多个集群。Watcher 要做一个同一的界面,在这个界面上设置本身的监控的时辰,选择数据源,对付打数的人他清晰这个指标在什么处所。

能不能做一个同一的数据源,让用户来行使,这样我们就在组件里加上了一个纯指标的数据库,每次流量过来之后,我们就会把这个指标的名称写到我们数据库里一份,同时记录它在哪个集群。

这样我们就可以对外报一个同一的 Graphite-api ,若是说一个指标我们要起 s.flat-xx 的指标,起首是挪用api,去找 s.flat-xx 这个指标在什么集群里,发此刻机票的集群里,再通过同等性哈希就可以把这个指标取出来了。

Graphite-api 上第一部门是借这个 Dashboard 来报警。讲完备个的 Watcher 架构,下面看一下主机监控是怎么做的?

六小我私家奈何运维一万台办事器?

起首有一个硬件打点平台,维护着主机监控的相干信息。

最首要的是会编排署理,去维护署理的版本设置,会不断的去扫描这个主机,往主机上陈设,也会按时搜查指标是否网络了。

若是这个主机指标呈现断点了可能有题目了,会报警去搜查,到底是  Collectd 出题目了照旧体系出题目了照旧收集出题目了。

每个主机上陈设 Collectd 之后会按照差异的设置打差异的指标,好比 CPU 的行使环境,内存的行使环境,收集带宽的行使环境,这些都将指标打成了 Watcher。

每个主机的指标也许都是沟通的,怎么区分差异主机的指标,我们就以主机的名称作为区分。接入到 Watcher 之后,我们就可以挪用 api,在 Dashboard 上挪用。

六小我私家奈何运维一万台办事器?

营业监控也是较量相同的,应用接入之后会袒暴露 api,内里就是最近 1 分钟之内应用的监控数据,每分钟 Qmonitor server 从全部的呆板上去拉这个文件,拿了文件之后做齐集的说明,说明完之后做响应的处理赏罚。

好比说对应用举办计数,算完之后以 Appcode 作为标识来区分差异的指标,将指标推送到 Watcher。推送到 Watcher 之后,同样可以查询监控,搜查应用指标的康健状态。

数据互通

下面讲一下我们怎么在整个运维平台实现数据互通的。我们在监控报警和主机打点里都提到了一个 Appcode ,在去哪儿网 Appcode 到底是什么?

六小我私家奈何运维一万台办事器?

着实它就是独一的一个标识应用,我们将一个应用举办了抽象化,意思越发广义了。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读