加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

基于标志数据进修低落误报率的算法优化

发布时间:2018-04-08 03:46:04 所属栏目:大数据 来源:站长网
导读:无论是基于法则匹配的计策,照旧基于伟大的安详说明模子,安详装备发生的告警都存在大量误报,这是一个相等广泛的题目。个中一个重要的缘故起因是每个客户的应用场景和数据都多几几何有差异的差别,基于牢靠判定法则对有统计涨落的数据举办僵化的判定,很轻易

扼要代码如下:

大数据

此安详威胁场景相对简朴,我们不必要太多的特性值和海量的数据,以是呆板进修模子选择了随机丛林(RandomForest),我们也实行了其他伟大模子,得出的结果区别不大。测试功效如下:

大数据

到达我们所预期的结果,当实习数据越来越多的时辰,测试数据傍边的误报率从20%多低落到了10%。通过对告警数据和标签的不绝自进修,可以剔除许多告警误报。前面提到,数据傍边引入了9%的噪音,以是误报率不会再一连的低落。

在我们的呆板进修模子傍边,我们操作了4个首要的特性值:

1.srcIP,会见源IP

2.timeofday,告警发生的时刻

3.visits,会见次数

4.destIP,被会见IP

下图表现了特性值在模子中的重要性:

大数据

和我们的预期也是同等的,会见源IP(srcIP)和告警产生的时刻(timeofday)是区分出误陈诉警结果最好的特性值。

其它,因为随机丛林模子以及大部门呆板进修模子都不支持分类变量(categoricalvariable)的进修,以是我们把srcIP和destIP这两个特性值做了二值化处理赏罚。扼要代码如下:

大数据

总结

本文通过一组模仿尝试数据和随机丛林算法,从理论上验证了“标签转达履历要领”的有用性。即通过安详说明专家对告警日记举办有用或误报的标志,把专家的常识手艺转化成呆板进修模子的说明手段。和其他要领对比,此要领在完成自动化进修之后就不再必要人工过问,并且会跟着数据的蕴蓄对误报的剔除会越发准确。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读