加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

【IDCC2019】腾讯栗权:腾讯智维平台与数据中心运营系统团结

发布时间:2019-12-21 18:25:49 所属栏目:创业 来源:中国IDC圈
导读:副问题#e# 大数据期间,数据泛起爆炸式的增添,环球掀起了兴建数据中心的高潮。在新期间,将来数据中心怎样建树运营,又将泛起出奈何的成长趋势?2019年12月19日,第十四届中国IDC财富年度大典(IDCC2019)第二日出色继承,行业专家和企业代表云集IDC建树与
副问题[/!--empirenews.page--]

大数据期间,数据泛起爆炸式的增添,环球掀起了兴建数据中心的高潮。在新期间,将来数据中心怎样建树运营,又将泛起出奈何的成长趋势?2019年12月19日,第十四届中国IDC财富年度大典(IDCC2019)第二日出色继承,行业专家和企业代表云集“IDC建树与成长论坛”,为数据中心将来的建树与成长献计献策。腾讯天津滨海数据中心司理栗权老师在会上为与会者举办了《腾讯智维平台与数据中心运营系统团结》的主题演讲。

腾讯天津滨海数据中心司理栗权

腾讯天津滨海数据中心司理栗权

各人上午好,很兴奋可以或许介入本日的分享。我本日分享的主题是腾讯的智维平台是怎样现实应用到数据中心的市场运营进程中的。

起首做一下自我先容。我是来自腾讯按天津滨海数据中心的司理栗权。天津滨海机房是腾讯第一个自建机房,而是腾讯运营中单体体量最大的一个园区。天津滨海这个机房单体处事器数目已经高出10万台,机架数目5400架阁下。

我本日分享的首要有三个议题。起首跟各人一路回首一下腾讯的智维平台成长过程。其次跟各人具体先容一下腾讯智维平台在一般运营以及数据说明方面临运营进程施展了哪些浸染。三是智维平台的上风和落地的应用。

腾讯2000年成立了本身第一个数据中心,虽然谁人时辰我们是跟深圳电信租赁的一个机房,直到2006年腾讯有了第一个正式算作IT机房的数据中心,在深圳宝安机房。到2011年腾讯有了第一个在天津自建的数据中心,就是我所运营的机房。时刻很快,到2013年腾讯宣布了第三代以微模块为主导的MDC的数据中心技能。2015年推出了第四代T—BLOCK集装箱式的数据中心。到此刻我们已经经验了四代数据中心的成长过程。在这么多年的建树和运营进程中,有一点领会长短常深刻的:一套高效可用的打点平台,对整个数据中心的运营质量和运营服从来说是可以或许带来指数级的辅佐的。以是,基于这个理念,我们在2014年自主研发而且上线了一套腾讯智维平台的前身。

数据中心在运营进程中会碰着差异的挑衅,有四点我总结的一般运营进程中我们也许谋面对的最大的几个挑衅:管人、管物、管甜头事以及节制好本钱。智维平台针对这四个模块都举办了焦点手段的打造。DCOM,在腾讯内部我们把它界说成一般的运营流程平台,全部的变乱改观、维护维保都是通过DCOM来驱动的,它的首要目标是为了管好我们外包职员,举办人的打点。现场运营着数万台的装备,有几十万个监控测点,天天发生数T的数据。怎样应用和说明这些数据,让它最大化发生代价,是在DCRM平台举办扩充和说明的。另外,因为腾讯云会对外提供许多托管的营业。以是,我们给用户提供的处事目次的打点,会在DCIM平台举办管控。全部的运营进程中,所产生的物料以及资源本钱,我们城市在DCSM模块举办同一禁锢。

下面我别离睁开跟各人先容一下。DCIM平台是腾讯智维整个产物的焦点。五年之前,就是已经跟BA等厂商买通了底层的数据接口,把数据中心内50万个测点所有通过尺度的接口举办对接,而且本身举办同一的存储。基于这些数据,我们拟定N多种运营场景,为每种运营场景配置一个模子。这个数据模子别离可以应用到我们的可视化试图以及告警说明、智能说明中,这样说也许会较量抽象,后头各人可以看两个详细的例子。

分享一个腾讯天津数据中心三号楼的一个及时数据,由于我们已经切了节省模式,以是功率法算出的及时PUE是1.18,负荷是12.4兆瓦。每一天作为运营打点职员,可以通过这个页面临整个机房当前的运营容量,以及外室电,以及当前机架的行使环境有一个整体的相识。进一步可以通过收罗上来的监控数据,对外室电的供电质量以及每一台变压器的质量和供电质量举办跟踪。这些数据都可以颠末简朴的模子处理赏罚,在运营综合视图里揭示出来。

收罗到的50多万条数据怎样应用到综合视图里,我们会进一步把它应用到监控诉警中。因为传统的监控诉警只是举办纸回执的监控,配置一个上下限,描写物理进程,可是腾讯智维平台很早就实现了基于拓扑的逻辑收敛。会把从室电进线到中压侧到UPS直到结尾所有都举办数字化的转译,我们把每一个装备之间的元器件成立起来一个拓扑相关,从空开状态到收罗值。基于这个拓扑相关配置我们的告警计策。这样一旦源头有任何的告警发生,我们都可以通过拓扑相关以及所设定的告警计策举办告警的收敛以及快速的妨碍定位,用这种方法来防备告警泛红,以及辅佐一耳目员快速举办妨碍处理赏罚和相应。

第二个例子是康健打点。单单有这些告警数据照旧不足的,由于告警每每已经有一个滞后效应了。被打点职员看到,被处理赏罚的时辰,声名已经造成了必然的影响。我们基于现场海量的数据,除了举办被动的告警相应以外,还会举办许多主动的康健状态的预警检测。这里分享的是我们对付电池康健状态检测的案例。我们除了会对电池的温度、内阻和电压传统的三类相量举办监控以外,,还引入了呆板进修、监视进修的AI算法,通过整组以及落伍电池说明多种AI说明的要领,辅佐我们发明哪些电池固然表象上今朝的容量和电压都正常,可是它确其实历次放电中可能在运营进程中是存在落伍的风险,可能落伍的隐患的。我们也累计了半年的数据举办说明。通过AI的方法发明的电池妨碍可能电池非常的精确率要高于我们对传统电压和内阻监控而发明的精确率。

下一个智维平台的亮点是关于容量的打点。容量对付数据中心运营安详来说长短常重要的,但传统的IDC假如要做到风雅化的容量打点也许要借助很是多的报表,可能在结尾陈设很是多的智能PDU。可是基于腾讯DCIM接口,我们可以举办电压电流的检测,全部检测上来的数据可以绘制一张容量视图中。通过平面图,再团结当前CMBD内里机架机位现实的空闲状态,就可以顿时绘制出来一张综合了电量以及机位的物理状态资源表,按照这张表就可以进一步举办后续装备上架时所行使的资源状态的分派。

我们不单做了容量打点,还可以基于现有空闲的容量,将来对付差异型号的处事器,再上架新装备也做了一个猜测的模子。这个模子可以给到我们后续的资源分派以及资源上架举办预估的指导,模子的精确率高达90%以上。

尚有一个亮点是能耗说明。起首我们可以基于方才提到的18个测点的收罗和监控,对现场合产生的每一个千瓦,乃至每一台装备它的现实能耗以及它对整个能耗的本钱到底有什么孝顺,以及有什么破绽,做一览无余的说明和统计。说明完这些数据,最终的目标也许是要将能耗举办公道的节制。腾讯模拟Google的一个做法,行使了基于收集的算法,在数据中心之内做了一个PUE节能的猜测。起首我们导出了汗青五年全部的从BA冷站到结尾随处事器,AI负载的快要70多维度的汗青数据。对全部的数据凭证影响因子举办建模和排序,这里的影响因子变革量很是多。个中一个重要的参考量就是我方才提到的这张拓扑,由于我们每一台装备,不管是通过管路毗连起来的也好,照旧通过冷冻水能量情势毗连起来的也好,内涵都有一种关联相关。我们按照这些关联相关的疏与密,可以分列出来一个影响因子。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读