巧用呆板进修定位云处事器妨碍
副问题[/!--empirenews.page--]
【新品产上线啦】51CTO播客,随时随地,碎片化进修
配景 对付每一单母机妨碍我们都必要定位出背后真实的妨碍缘故起因,以便对响应的部件举办改换以及统计各类部件妨碍率的环境,因此妨碍定位和说明耗损的人力也越来越多。但愿能借助呆板进修的要领对汗青妨碍母机的日记数据举办进修,沉淀出一些模子出来实现自动化的说明新的母机妨碍的缘故起因,进而进步母机工单的处理赏罚服从解放人力,同时也能说明出妨碍的一些纪律,进而实现对妨碍的猜测等。 方针 1、对母机宕机妨碍举办自动化的说明,精确定位妨碍缘故起因; 2、当妨碍分类精确率到达足够精确之后,可以或许不必要人工参加,实现自动化结单; 3、及时流式处理赏罚母机的各类数据,实现部门妨碍的猜测。 数据 1、dmesg :呆板宕机前的最后一屏,含有netconsole数据; 2、mcelog :体系搜查到硬件错误发生的日记; 3、sel :体系变乱日记,是处事器传感器网络数据发明非常发生的日记。 图片来自包图网 要领步调 首要步调包罗数据筛选、数据洗濯、文本向量化、模子构建、功效说明等。 数据筛选 1)查察三类日记,说明是否每一种日记对妨碍定位都有存代价。剔除无代价的日记; 2)按照营业需求,选择特定的妨碍种别。由于某些妨碍的工单数目出格少,难以成立呆板进修模子做分类; 3)保存三种日记不全为空的妨碍工单,完全无记录的工单是无法操作的; 4)按照工单编号ticket_id将日记及妨碍工单整合,工单和母机应该是逐一对应的。 数据洗濯 1)剔除非凡标记'#', '<', '>', '&', '@','!', '(', ')', '*', '_'等; 2)剔除日记的无用信息,如数字名目和英文名目标; 3)日记分隔洗濯,当差异日记的名目纷歧致时,必要区分看待分隔洗濯。 文本向量化 日记数据一样平常为文本数据,在构建文档分类模子时,必要将文本型数据转化成数值型数据。文本向量化(也叫做特性权重计较)常用以下三种要领。 1)布尔权重(Boolean vector),是最简朴的权重计较要领。假如某特性词在文本中呈现,其权重即为1,;不呈现,即为0.这一简朴粗暴的要领轻易丢失文本内部详细信息,结果略差。但合用于一些回收二分类的模子,好比决定树和概率分类器。 2)频度权值(term frequence),是最直观的权重计较要领。单词在文本中呈现的次数即为频度权重。这种要领的头脑是,呈现次数越多的特性单词,其重要性越大。 ![]() 3)Tf-idf(Term Frequency-Inverse Document Frequency, 词频-逆文件频率),是应用最普及的权值计较要领。单词在一条工单的日记中呈现次数越多, 同时在全部工单中呈现次数越少, 越可以或许代表该妨碍工单。 对比于频度权值,引入了IDF。IDF的首要头脑是:假如包括词条t的文档越少, IDF越大,则声名词条具有很好的种别区分手段。计较公式如下,分母之以是要加1,是为了停止分母为0 ![]() ![]() 参考示例: http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 模子构建 在已稀有据(标志)的基本上结构出一个分类函数/分类模子, 即为一个决定面。 ![]() 1)数据分别:随机分层抽样,分别实习集(70%)用于构建模子,测试集(30%)用于验证模子结果; 2)数据预处理赏罚:数据整合、数据洗濯、文天职词等进程在实习集和测试集上是同样的处理赏罚方法,以确保最后的干净的实习集和测试数据的名目是同一的; 3)文本向量化:回收tf-idf将文本向量化,选择l2正则化,团结文档频率df和最大词频tf举办特性选择,选出多少个要害词;配置停用词['is', 'not', 'this', 'the', 'do', 'in']等; 4)模子构建:选取分类题目常用的算法构建模子,构建模子进程中不绝参数调优,构建最佳的模子。 ![]() 注:对付数目出格少的妨碍范例,假如依赖专家常识说明已有的工单日记可以或许逐一正确区分的话,那么可以工钱地抽象出唯一无二的妨碍特性,并编写模块实现自动化分类。 功效说明 妨碍诊断阶段,将构建好的模子运用到测试集上,对妨碍诊断功效说明。以决定树成立妨碍诊断模子,可见在实习集上的结果可达98.94%,测试集上可达90.24%。 ![]() 为进一步进步模子机能,一方面应详细说明实习集和测试集上被错误分类的妨碍工单,查察三种日记的内容并查找题目;另一方面,可增进更多的数据用于构建模子,一样平常而言,数据量越大,模子越靠近。 差异算法:实行回收差异的文天职类算法用于妨碍分类,测试结果能反应出该算法对当前题目的合用性。如下,笔者回收了8种算法举办比拟,并对功效举办总结说明。 ![]() ![]() (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |