【IDCC2019】腾讯栗权:腾讯智维平台与数据中心运营系统团结
各人可以领略为影响因子排序在前的就是对机房PUE孝顺较量大的。基于对这些影响因子的说明,我们又引入了一个迅速度说明的算法,给出来一个通过AI计较而输出的保举值意见。平台汇报我们基于当前的供水温度和送风温度,在担保我们所输入的安详界线不被冲破的环境下,你可以有几多的优化空间,以及优化到什么水平的时辰PUE值会低落几多。这个项目出于审慎起见,对付体系给出的每一个优化提议我们都有一个严酷的改观流程举办节制,改观完之后,我们要按照实测值与体系的保举值举办较量,由于要剔除去许多滋扰身分,以是我此刻没有步伐直接汇报各人通过AI算法我们的PUE到底低落了几多,可是PUE可以或许在必然空间内通过AI算法安详地调优,这个偏向已经被我们的尝试认证了。 说明完DCIM之后,再给各人先容一下智维平台在DCOM这个模块里的计划理念。DCOM是指我们一般运营进程中的流程以及流程之间的关联相关。我们在搭建DCOM的时辰,有一个根基的理念,海恩法例。任何一路数据中心的事情,好比导致我的处事受到影响,导致宕机或供冷间断的事情,背后都有许多隐藏隐患和未遂的风险存在。以是,只要我们在一般运营进程中,在事前只管多地将隐患消除去,让隐患不创立,必然水平上就可以担保结尾处事的持续和不变。这是我们DCOM搭建的一个焦点理念。因为数据中心运营行业行使的已经较量成熟了,以是我这里重点提一下腾讯正在行使的智能化巡检模块。 智能化巡检模块基于一个理念,我们把现场每一台装备,可能我们所打点的每一台装备都以布局化的方法把它的巡检相、巡检尺度和装备编号举办布局化的处理赏罚可能转译。现场借助于RFID扫码的情势激活每一台待巡检装备,以此得到巡检项,这样自然晋升了巡检服从,并且也能担保巡检质量,也可以或许低落执行巡检职员手段门槛。 在这个理念之上,腾讯在2019年下半年又对巡检事变做了进级。我们以为巡检只是对监控体系的不敷以及监控体系无法包围的装备举办人工确认,对付监控体系已经可以或许实现长途禁锢的装备,我们已经从巡检体系中剥离了。以是,我们经验了对付现场巡检由繁到简又从繁化简的进程。 关于智维平台的DCSM打点。腾讯云营业形态有许多种,个中一个重要的是托管用户好比58同城,他对我们腾讯机房的机架举办整机架租赁,机架上托管着他们本身的处事器。像58这种用户,他对他所享受的处事更存眷的是当前的温湿度,情形怎么样,我的装备漫衍在你的机房里哪个位置,我尚有几多空间可能几多的容量可以或许继承行使。基于这个需求,DCSM就重点办理了用户存眷的综合视图以及资源查察、运营进程透明化的挑衅。托管用户可以在平台里看到他全部所行使或所托管装备的运营环境,而且可以通过平台看到每一台装备的资源信息,提倡全部处事目次中我们已经跟他签约的每一个处事项,确保全部的需求可以或许被线上记录,精准的转达到我们的现场。这样将运营进程中的风险节制到最低。 腾讯智维自己源于腾讯本身的一个运营平台,从2014年至今这套平台已经推广到了腾讯的四大片区,包罗我们全部的自建机房以及合建租赁机房。截至到今朝,这一套运维平台已经包围了腾讯所有10万个机架以及100万处事器地址的数据中心的基本办法运营打点。假如各人对腾讯智维平台更具体的成果和特点有乐趣,可以跟我继承接洽,咱们再进一步雷同。 我本日的分享竣事,感谢各人! (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |