加入收藏 | 设为首页 | 会员中心 | 我要投稿湖南网（https://www.hunanwang.cn/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 业界 > 正文

巧用呆板进修定位云处事器妨碍

发布时间：2018-09-26 12:43:21 所属栏目：业界来源：博客园

导读：【新品产上线啦】51CTO播客，随时随地，碎片化进修配景对付每一单母机妨碍我们都必要定位出背后真实的妨碍缘故起因，以便对响应的部件举办改换以及统计各类部件妨碍率的环境，因此妨碍定位和说明耗损的人力也越来越多。但愿能借助呆板进修的要领对汗青妨碍母

副问题[/!--empirenews.page--] 【新品产上线啦】51CTO播客，随时随地，碎片化进修

配景

对付每一单母机妨碍我们都必要定位出背后真实的妨碍缘故起因，以便对响应的部件举办改换以及统计各类部件妨碍率的环境，因此妨碍定位和说明耗损的人力也越来越多。但愿能借助呆板进修的要领对汗青妨碍母机的日记数据举办进修，沉淀出一些模子出来实现自动化的说明新的母机妨碍的缘故起因，进而进步母机工单的处理赏罚服从解放人力，同时也能说明出妨碍的一些纪律，进而实现对妨碍的猜测等。

方针

1、对母机宕机妨碍举办自动化的说明，精确定位妨碍缘故起因;

2、当妨碍分类精确率到达足够精确之后，可以或许不必要人工参加，实现自动化结单;

3、及时流式处理赏罚母机的各类数据，实现部门妨碍的猜测。

数据

1、dmesg ：呆板宕机前的最后一屏，含有netconsole数据;

2、mcelog ：体系搜查到硬件错误发生的日记;

3、sel ：体系变乱日记，是处事器传感器网络数据发明非常发生的日记。

巧用呆板进修定位云处事器妨碍

图片来自包图网

要领步调

首要步调包罗数据筛选、数据洗濯、文本向量化、模子构建、功效说明等。

数据筛选

1)查察三类日记，说明是否每一种日记对妨碍定位都有存代价。剔除无代价的日记;

2)按照营业需求，选择特定的妨碍种别。由于某些妨碍的工单数目出格少，难以成立呆板进修模子做分类;

3)保存三种日记不全为空的妨碍工单，完全无记录的工单是无法操作的;

4)按照工单编号ticket_id将日记及妨碍工单整合，工单和母机应该是逐一对应的。

数据洗濯

1)剔除非凡标记'#', '<', '>', '&', '@','!', '(', ')', '*', '_'等;

2)剔除日记的无用信息，如数字名目和英文名目标;

3)日记分隔洗濯，当差异日记的名目纷歧致时，必要区分看待分隔洗濯。

文本向量化

日记数据一样平常为文本数据，在构建文档分类模子时，必要将文本型数据转化成数值型数据。文本向量化(也叫做特性权重计较)常用以下三种要领。

1)布尔权重(Boolean vector)，是最简朴的权重计较要领。假如某特性词在文本中呈现，其权重即为1,;不呈现，即为0.这一简朴粗暴的要领轻易丢失文本内部详细信息，结果略差。但合用于一些回收二分类的模子，好比决定树和概率分类器。

2)频度权值(term frequence)，是最直观的权重计较要领。单词在文本中呈现的次数即为频度权重。这种要领的头脑是，呈现次数越多的特性单词，其重要性越大。

3)Tf-idf(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)，是应用最普及的权值计较要领。单词在一条工单的日记中呈现次数越多, 同时在全部工单中呈现次数越少, 越可以或许代表该妨碍工单。

对比于频度权值，引入了IDF。IDF的首要头脑是：假如包括词条t的文档越少, IDF越大，则声名词条具有很好的种别区分手段。计较公式如下，分母之以是要加1，是为了停止分母为0

参考示例： http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

模子构建

在已稀有据(标志)的基本上结构出一个分类函数/分类模子，即为一个决定面。

1)数据分别：随机分层抽样，分别实习集(70%)用于构建模子，测试集(30%)用于验证模子结果;

2)数据预处理赏罚：数据整合、数据洗濯、文天职词等进程在实习集和测试集上是同样的处理赏罚方法，以确保最后的干净的实习集和测试数据的名目是同一的;

3)文本向量化：回收tf-idf将文本向量化，选择l2正则化，团结文档频率df和最大词频tf举办特性选择，选出多少个要害词;配置停用词['is', 'not', 'this', 'the', 'do', 'in']等;

4)模子构建：选取分类题目常用的算法构建模子，构建模子进程中不绝参数调优，构建最佳的模子。

注：对付数目出格少的妨碍范例，假如依赖专家常识说明已有的工单日记可以或许逐一正确区分的话，那么可以工钱地抽象出唯一无二的妨碍特性，并编写模块实现自动化分类。

功效说明

妨碍诊断阶段，将构建好的模子运用到测试集上，对妨碍诊断功效说明。以决定树成立妨碍诊断模子，可见在实习集上的结果可达98.94%，测试集上可达90.24%。

为进一步进步模子机能，一方面应详细说明实习集和测试集上被错误分类的妨碍工单，查察三种日记的内容并查找题目;另一方面，可增进更多的数据用于构建模子，一样平常而言，数据量越大，模子越靠近。

差异算法：实行回收差异的文天职类算法用于妨碍分类，测试结果能反应出该算法对当前题目的合用性。如下，笔者回收了8种算法举办比拟，并对功效举办总结说明。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1

相关内容

推荐文章

宏光MINI GAMEBOY全面	美国初创公司Aquarian
新一代汽车芯片的设计	显示器常见背光种类盘

站长推荐

热点阅读