基于标记数据学习降低误报率的算法优化
扼要代码如下: 此安详威胁场景相对简朴,我们不必要太多的特性值和海量的数据,以是呆板进修模子选择了随机丛林(RandomForest),我们也实行了其他伟大模子,得出的结果区别不大。测试功效如下: 到达我们所预期的结果,当实习数据越来越多的时辰,测试数据傍边的误报率从20%多低落到了10%。通过对告警数据和标签的不绝自进修,可以剔除许多告警误报。前面提到,数据傍边引入了9%的噪音,以是误报率不会再一连的低落。 在我们的呆板进修模子傍边,我们操作了4个首要的特性值: 1.srcIP,会见源IP 2.timeofday,告警发生的时刻 3.visits,会见次数 4.destIP,被会见IP 下图表现了特性值在模子中的重要性: 和我们的预期也是同等的,会见源IP(srcIP)和告警产生的时刻(timeofday)是区分出误陈诉警结果最好的特性值。 其它,因为随机丛林模子以及大部门呆板进修模子都不支持分类变量(categoricalvariable)的进修,以是我们把srcIP和destIP这两个特性值做了二值化处理赏罚。扼要代码如下: 总结 本文通过一组模仿尝试数据和随机丛林算法,从理论上验证了“标签转达履历要领”的有用性。即通过安详说明专家对告警日记举办有用或误报的标志,把专家的常识手艺转化成呆板进修模子的说明手段。和其他要领对比,此要领在完成自动化进修之后就不再必要人工过问,并且会跟着数据的蕴蓄对误报的剔除会越发准确。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |