加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

特征工程之加密流量安全检测

发布时间:2019-07-24 01:03:12 所属栏目:建站 来源:观成科技Lion
导读:在经典的呆板进修规模,特性工程始终占有着焦点位置,特性工程的质量坎坷每每直接抉择了呆板进修结果的成败。本文概述我们在加密恶意流量检测实践中的特性工程要领流程并说明最终行使的流量特性荟萃。 从广义的角度审阅,特性工程的实践流程一样平常包括特性提
副问题[/!--empirenews.page--]

在经典的呆板进修规模,特性工程始终占有着焦点位置,特性工程的质量坎坷每每直接抉择了呆板进修结果的成败。本文概述我们在加密恶意流量检测实践中的特性工程要领流程并说明最终行使的流量特性荟萃。

加密流量

从广义的角度审阅,特性工程的实践流程一样平常包括特性提取、特性选择、特性应用、特性迭代四个步调。

一、特性提取

特性提取是特性工程初期的重要事变使命。怎样计划待提取的候选特性荟萃,必要对恶意软件加密通讯具有全面的规模常识蕴蓄。如那里理赏罚提取后的特性候选荟萃以获得得当呆板进修模子输入的特性,必要对数据说明处理赏罚要领具有深入的实践履历。

加密流量

起源特性抽取针对的候选特性荟萃分为协议无关特性与协议相干特性两类。协议无关特性是指流量数据传输进程中示意的通用特性,譬喻,数据包的巨细、包时距离断等。协议相干特性是指流量数据在加密传输协议层面示意的专有特性,譬喻,SSL 扩展种类、加密套件种类。通过对 SSL 协议尺度和恶意流量数据的深入研究,并团结网络的数据集举办一一验证,我们最终得出一组涵盖范畴广且和恶意流量相干性高的候选特性集,然后开拓专有特性提取体系,为后续的特性数据说明处理赏罚提供基本支持。

在已提取的候选特性荟萃基本上,举办进一步特性数据说明处理赏罚,对不得当直接作为呆板进修模子输入的数据,举办深度特性抽取。譬喻,针对加密通讯进程中也许呈现的种种域名,传统要领是提取域名的数字个数、字母个数、非字母和数字个数等作为特性,我们基于深度进修技能实习 LSTM 模子直接提取其 DGA 域名概率值作为特性,可以或许给呆板进修模子提供更有用的数据信息。后续尝试表白,这类深度抽取特性在模子中起到了要害浸染。上述 DGA 域名检测模子架构图如下图所示:

特性工程/加密/流量安详

二、特性选择

特性选择是特性提取后的一项重要事变,直接抉择了最终行使特性集的质量。我们共行使了四类特性选摘要领:先验常识验证、降维可视化说明、开导式搜刮说明、综合工程测试。前两类要领依赖数据统计说明,后两类要领团结分类模子。

特性工程/加密/流量安详

先验常识验证,是指依赖专家先验常识直接对候选特性荟萃举办弃取。针对数据集上的特性统计功效示意出的差别,先验常识可以直接给出本质缘故起因,指导特性选择。譬喻,SSL 扩展在 GREASE 扩展项上示意出的正常/恶意流量不同,是不能作为保存特性的,由于,GREASE 扩展项只是赏识器为担保协议可扩展性计划的特征,并不反应恶意流量特征。

降维可视化说明,是指对起源选择的一组特性集举办基于无监视进修的降维处理赏罚和可视化说明,直接判定这组特性集的质量。譬喻,我们行使 PCA 和 t-SNE 等降维要领对一组特性集举办降维,从对降维功效的可视化说明图可以看出,这组特性集在图中的数据集上的聚类和区分结果明明,具有较高的质量。降维可视化结果如下图所示:

特性工程/加密/流量安详

特性工程/加密/流量安详

开导式搜刮说明,是指从一个较小的特性集出发,分批次慢慢添加候选特性,行使呆板进修模子举办分类结果测试,判定该批次特性的弃取。在特性集数目较大导致无法遍历测试每个特性集的场景下,基于随机选择和树搜刮的说明要领可以较好地均衡服从和精确率。

综合工程测试,是指在根基确定的一组特性集基本上,团结呆板进修模子举办进一步的综合工程测试。譬喻,决定示范子和随机丛林模子都可以给出特性重要性数值和排序,在这两种模子长举办测试时就可以综合每一次的测试功效,裁减一些排序低和数值低的特性,进一步精简特性集。

颠末上述四步特性选摘要领,获得一组相比拟力精确的加密流量特性集。在此基本上,还要举办特性之间的相干性说明,去除相干性较大的一再特性,这可以通过计较相相关数、互信息等要领实现。固然去除一再特性对模子的猜测结果并无太大进步,可是其首要目标是精简特性集,减小模子伟大度,进步猜测机能。

三、最终特性集

颠末特性抽取和特性选择,最终获得四大类特性集:时空特性、握手特性、证书特性、配景特性。在这四大类基本上,又分为 54 个子类、高出 1000 种特性。这些特性足够细粒度地描写每一次加密会话,浮现差异类加密流量的渺小不同。

1. 时空特性

时空特性即前面提到的协议无关特性。“时” 指的是和时刻相干的一组特性集,譬喻,流时长、包时距离断等。“空” 指的是和包巨细相干的一组特性集,譬喻,包巨细转移矩阵、熵值等。下图别离是两个示例:

特性工程/加密/流量安详

特性工程/加密/流量安详

2. 握手特性

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读