使用什么工具来处理对抗样本问题?

人工智能 资源请求 对抗性毫升 人工智能安全 人工智能安全
2021-10-17 22:52:39

众所周知,对抗样本问题对神经网络至关重要。例如,可以通过将不同的低幅度图像添加到看起来像噪声但旨在产生特定错误分类的许多训练示例中的每一个来操作图像分类器。

在此处输入图像描述

由于神经网络应用于一些安全关键问题(例如自动驾驶汽车),我有以下问题

使用哪些工具来确保安全关键型应用程序能够抵抗在训练时注入对抗性示例?

存在旨在开发神经网络防御安全性的实验室研究。这是几个例子。

但是,是否存在工业实力、生产就绪的防御策略和方法?是否有针对一种或多种特定类型(例如小扰动限制)的应用对抗性网络的已知示例?

已经(至少)有两个问题与神经网络的黑客愚弄问题有关。然而,这个问题的主要兴趣在于是否存在任何可以防御某些对抗性示例攻击的工具。

2个回答

但是,是否存在工业实力、生产就绪的防御策略和方法?是否有针对一种或多种特定类型(例如小扰动限制)的应用对抗性网络的已知示例?

我认为很难判断是否存在任何工业强度防御(我认为这意味着它们对于所有或大多数已知的攻击方法都是可靠的)。对抗性机器学习确实是一个非常活跃且不断发展的研究领域不仅定期发布新的防御方法,而且还积极研究不同的“攻击”方法。由于经常发现新的攻击方法,任何人都不太可能已经声称拥有可以可靠地对付它们的方法。

然而,这个问题的主要兴趣在于是否存在任何可以防御某些对抗性示例攻击的工具。

我能找到的最接近即用型“工具”的是IBM 的 Adversarial Robustness Toolbox,它似乎实现了各种攻击和防御方法。它似乎正在积极发展中,考虑到研究领域本身也非常活跃,这是很自然的。我从来没有尝试过使用它,所以我不能亲自保证它在多大程度上可以轻松地用作工业工具,或者它是否真的只适合研究。


根据Ilya的评论,其他可能有用的框架是CleverhansFoolbox

另一种观点 -
在安全关键的现实世界系统中,这种攻击也应该从其他方面进行评估。
在许多系统中,攻击只是在某种程度上减轻了物理攻击——例如,你不能向用于自动驾驶的摄像头添加数字噪声——你需要打印一个对抗性的例如停车标志并将其定位在它仍然存在的地方从多个角度、角度、光线和条件等角度来看和解释不正确。
鉴于此,我认为目前对现实世界关键任务系统进行可扩展攻击的对抗性示例的总体风险目前不是很高. 这就是为什么这样的工作存在于研究级别的公司中,但还没有生产。