G.O.S.S.I.P 阅读推荐 2023-09-11 机器学习 x 安全应用的“十宗罪”

AI 1年前 (2023) admin

110 0 0

今天要推荐的一篇文章是 IEEE Security & Privacy Magazine 上“新鲜出炉”的文章 Lessons Learned on Machine Learning for Computer Security（正式发表日期就是2023年9月11日）。在这篇由来自英国和德国的研究人员共同撰写的文章中，总结了当前计算机安全研究领域在应用机器学习技术时，最容易犯的10个错误（pitfall）

因为是发表在 magazine 上的短文章，所以作者开宗明义，上来就告诉大家，到底什么是机器学习在计算安全应用中的常见问题，这里面我们会看到一堆概念，比如 Spurious Correlations 啊 Data Snooping 之类，不过作者很贴心地整理了一个表格（下表），阅读的时候先看这个表格应该就很容易理解了。

G.O.S.S.I.P 阅读推荐 2023-09-11 机器学习 x 安全应用的“十宗罪”

那么，上面总结的这十宗罪，在真实世界中的存在情况如何呢？作者统计了30篇发表于各家 top conference 上面的论文（时间跨度从2011年到2020年），这些论文都利用了机器学习技术来辅助计算机安全分析，主要包括恶意代码检测和漏洞检测等。下图展示了这些论文（嗯，虽然它们都是已经发表的顶会论文）中存在上述10类 pitfall 的比例。

G.O.S.S.I.P 阅读推荐 2023-09-11 机器学习 x 安全应用的“十宗罪”

在所有的论文中，最常出现的问题是 sampling bias 和 data snooping：在所有被调查的论文中，有90%的论文（部分）存在 sampling bias 问题，而有73%的文章（部分）存在 data snooping 问题，而至少有一半的论文里面包含了 inappropriate performance measures 或者 lab-only evaluation 这两类问题中的一种。而且作者还尖锐地批评了所调查的论文，指出它们中只有22%的文章会主动去讨论相关的 pitfall，而其他论文作者可能根本没意识到这些问题（或者避而不谈）。当然，本文作者联系了所有30篇被调查论文的作者，得到的反馈是大家觉得这“十宗罪”确实需要认真考虑，我们科学社区还是很愿意自我批评的~

今天这篇短文内容不多，不过如果你最近正在做一些基于机器学习的安全分析，那么是不是可以自查一下，看自己有没有在这些问题上犯错呢（做“outdated”传统安全研究的人窃笑）？

论文：https://ieeexplore.ieee.org/abstract/document/10242205/