加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

巧用呆板进修定位云处事器妨碍

发布时间:2018-09-26 12:43:21 所属栏目:业界 来源:博客园
导读:【新品产上线啦】51CTO播客,随时随地,碎片化进修 配景 对付每一单母机妨碍我们都必要定位出背后真实的妨碍缘故起因,以便对响应的部件举办改换以及统计各类部件妨碍率的环境,因此妨碍定位和说明耗损的人力也越来越多。但愿能借助呆板进修的要领对汗青妨碍母
副问题[/!--empirenews.page--] 【新品产上线啦】51CTO播客,随时随地,碎片化进修

配景

对付每一单母机妨碍我们都必要定位出背后真实的妨碍缘故起因,以便对响应的部件举办改换以及统计各类部件妨碍率的环境,因此妨碍定位和说明耗损的人力也越来越多。但愿能借助呆板进修的要领对汗青妨碍母机的日记数据举办进修,沉淀出一些模子出来实现自动化的说明新的母机妨碍的缘故起因,进而进步母机工单的处理赏罚服从解放人力,同时也能说明出妨碍的一些纪律,进而实现对妨碍的猜测等。

方针

1、对母机宕机妨碍举办自动化的说明,精确定位妨碍缘故起因;

2、当妨碍分类精确率到达足够精确之后,可以或许不必要人工参加,实现自动化结单;

3、及时流式处理赏罚母机的各类数据,实现部门妨碍的猜测。

数据

1、dmesg :呆板宕机前的最后一屏,含有netconsole数据;

2、mcelog :体系搜查到硬件错误发生的日记;

3、sel :体系变乱日记,是处事器传感器网络数据发明非常发生的日记。

巧用呆板进修定位云处事器妨碍

图片来自包图网

要领步调

首要步调包罗数据筛选、数据洗濯、文本向量化、模子构建、功效说明等。

数据筛选

1)查察三类日记,说明是否每一种日记对妨碍定位都有存代价。剔除无代价的日记;

2)按照营业需求,选择特定的妨碍种别。由于某些妨碍的工单数目出格少,难以成立呆板进修模子做分类;

3)保存三种日记不全为空的妨碍工单,完全无记录的工单是无法操作的;

4)按照工单编号ticket_id将日记及妨碍工单整合,工单和母机应该是逐一对应的。

数据洗濯

1)剔除非凡标记'#', '<', '>', '&', '@','!', '(', ')', '*', '_'等;

2)剔除日记的无用信息,如数字名目和英文名目标;

3)日记分隔洗濯,当差异日记的名目纷歧致时,必要区分看待分隔洗濯。

文本向量化

日记数据一样平常为文本数据,在构建文档分类模子时,必要将文本型数据转化成数值型数据。文本向量化(也叫做特性权重计较)常用以下三种要领。

1)布尔权重(Boolean vector),是最简朴的权重计较要领。假如某特性词在文本中呈现,其权重即为1,;不呈现,即为0.这一简朴粗暴的要领轻易丢失文本内部详细信息,结果略差。但合用于一些回收二分类的模子,好比决定树和概率分类器。

2)频度权值(term frequence),是最直观的权重计较要领。单词在文本中呈现的次数即为频度权重。这种要领的头脑是,呈现次数越多的特性单词,其重要性越大。

img

3)Tf-idf(Term Frequency-Inverse Document Frequency, 词频-逆文件频率),是应用最普及的权值计较要领。单词在一条工单的日记中呈现次数越多, 同时在全部工单中呈现次数越少, 越可以或许代表该妨碍工单。

对比于频度权值,引入了IDF。IDF的首要头脑是:假如包括词条t的文档越少, IDF越大,则声名词条具有很好的种别区分手段。计较公式如下,分母之以是要加1,是为了停止分母为0

img

img

参考示例: http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

模子构建

在已稀有据(标志)的基本上结构出一个分类函数/分类模子, 即为一个决定面。

img

1)数据分别:随机分层抽样,分别实习集(70%)用于构建模子,测试集(30%)用于验证模子结果;

2)数据预处理赏罚:数据整合、数据洗濯、文天职词等进程在实习集和测试集上是同样的处理赏罚方法,以确保最后的干净的实习集和测试数据的名目是同一的;

3)文本向量化:回收tf-idf将文本向量化,选择l2正则化,团结文档频率df和最大词频tf举办特性选择,选出多少个要害词;配置停用词['is', 'not', 'this', 'the', 'do', 'in']等;

4)模子构建:选取分类题目常用的算法构建模子,构建模子进程中不绝参数调优,构建最佳的模子。

img

注:对付数目出格少的妨碍范例,假如依赖专家常识说明已有的工单日记可以或许逐一正确区分的话,那么可以工钱地抽象出唯一无二的妨碍特性,并编写模块实现自动化分类。

功效说明

妨碍诊断阶段,将构建好的模子运用到测试集上,对妨碍诊断功效说明。以决定树成立妨碍诊断模子,可见在实习集上的结果可达98.94%,测试集上可达90.24%。

img

为进一步进步模子机能,一方面应详细说明实习集和测试集上被错误分类的妨碍工单,查察三种日记的内容并查找题目;另一方面,可增进更多的数据用于构建模子,一样平常而言,数据量越大,模子越靠近。

差异算法:实行回收差异的文天职类算法用于妨碍分类,测试结果能反应出该算法对当前题目的合用性。如下,笔者回收了8种算法举办比拟,并对功效举办总结说明。

img

img

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读