什么是对抗性攻击?

人工智能 术语 文件 对抗性毫升 对抗性攻击 循环甘
2021-10-25 11:21:19

我正在阅读这篇非常有趣的文章CycleGAN, a Master of Steganography在本段之前,我了解所有内容:

我们可以将CycleGAN 训练过程视为不断G,通过优化生成器F生成对抗性地图G生成所需的图像。由于我们已经证明可以使用梯度下降生成这些对抗性地图,因此几乎可以肯定训练过程也会导致F生成这些对抗性地图。作为G然而,也在优化中,G通过学习变得越来越容易受到攻击,实际上可以被视为在这种攻击中进行合作。我们观察到差异的大小yy0随着 CycleGAN 模型的训练,通过等式 3 生成令人信服的对抗性示例所必需的减少,表明合作G支持对抗性地图。

CycleGAN 训练过程如何成为对抗性攻击?

我真的不明白引用的解释。

3个回答

对抗样本是攻击者故意设计的机器学习模型的输入,以使模型出错;它们就像机器的视错觉。

资料来源:用对抗性示例攻击机器学习

您创建一个输入并针对输出进行测试,调整输入以最大化误差。调整输入有不同的标准,有时您可能希望尽可能短的输入来产生最大的错误,通常您会希望非常相似的输入导致最大的错误。

示例:我拿了一张1美元的钞票,然后在一个后面写了几个零;你接受它作为1000美元的钞票。

我猜他们正在以与 Szegedy 等人相同的方式谈论对抗性攻击。“神经网络的有趣特性”中做过

他们将“对抗性攻击”或“对抗性示例”描述为几乎无法察觉的扰动改变网络预测的图像。

例如,假设您已经训练了一个 CNN 在各种类别之间进行分类。你拍了一张狗的照片X1,并且您的 CNN 正确地将其归类为“狗”,到目前为止一切都很好。

然后你可以添加一些小的扰动p对你的形象X1,所以现在你有了一个新图像X2=X1+p. 这个新图像看起来仍然像一条狗,因为你的扰动非常小,几乎无法察觉。

问题是你的 CNN 会对你的图片进行分类X2作为不是狗的东西,例如“鱼”。

这里,X2使用对抗性扰动后创建的对抗性示例p.

这些对抗性扰动有什么有趣的p是它们不是随机的。实际上,CNN 对随机扰动(噪声)非常稳健,但对抗性扰动p不像他们。计算它们以欺骗分类器(不仅是 CNN)。

您可以参考上述论文的图 5 了解更多示例。

简单的答案是以完全愚弄软件的不引人注意的方式调整图像。例如,被确定为 99% 可能“是鳄梨酱”的猫https://mashable.com/2017/11/02/mit-researchers-fool-google-ai-program/#CU7dSAfQ5sqY