引入KiloGram一种用于恶意软件的AI检测的新技术
最近,一组研究职员在KiloGram上颁发了他们的论文,KiloGram是一种用于打点文件中的大型n-gram的新算法,可以改进呆板进修对恶意软件的检测手段。新算法比早年的要领快60倍,而且可以处理赏罚n = 1024或更高的n-gram。n的大值具有可表明的恶意软件说明和署名天生的其他应用措施。 在KDD 2019收集安详进修和采矿研讨会上颁发的论文中,来自马里兰大学和收集安详公司Endgame的研究职员描写了他们的算法,用于在大型文件数据齐集查找最频仍的n-gram。早年的要领在增进n的巨细时会在内存和运行时中碰着“指数本钱”,而在说明具稀有十万个文件的数据集时,它们的n值将小于8。对比之下,KiloGram算法可以或许从数百万个文件中的5TB数据中提取n-gram,而仅行使9GB的RAM,而且“运行时刻不会随n的增进而增进”。这应承算法为较大的n值提取n-gram,以测试这些n-gram是否为呆板进修算法提供了更好的精确性。 一个n-gram是n个项的独一序列,而且该头脑被用于很多呆板进修使命中,尤其是天然说话处理赏罚(NLP)。在检测到恶意软件的环境下,n-gram是来自文件的字节序列,该文件将被分类为恶意软件或良性文件。恶意软件检测的早期事变表白,较大的n-gram(譬喻n = 15或20)对付实习检测体系是抱负的,可是当代数据集的巨细使得行使大于6的n值太昂贵。因为KiloGram算法可以处理赏罚那些较大的值,因此研究团队可以或许测试较大值更好的设法。 该团队行使可执行文件和Adobe PDF文档的多个数据集,实习了Elastic-Net正则化逻辑回归分类器来检测恶意软件;为了举办回归,输入特性是行使KiloGram算法提取的n元语法。与文献中的提议相反,研究职员发明“猜测精度不会增进到n = 8以上”。较大的n-gram会发生精度低落的模子;可是,它们具有可表明性的利益。较小的n-gram发生“黑匣子”模子,而较大的n-gram特性集包括也许对说明职员故意义的字节序列。譬喻,它们也许代表代码片断或文本字符串。 研究职员以为,较大的n-gram在回归模子中行使时不那么准确,由于它们更特定于特定的恶意软件进攻。现实上,它们会导致太过拟合。可是,当在诸如Yara之类的署名模子中行使时,它们的利益是它们的假阳性率低。也就是说,尽量Yara模子也许会错误地将更多文件标志为良性文件,但假如它确实表白文件为恶意软件,则很少有错。这使得KiloGram算法可用于构建团结了呆板进修模子和基于署名的模子的分层体系。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |