人工智能容易受到黑客攻击吗?

人工智能 神经网络 机器学习 人工智能安全 人工智能安全 对抗性毫升
2021-10-23 19:44:09

论文The Limitations of Deep Learning in Adversarial Settings探讨了神经网络如何被可以操纵神经网络训练的数据集的攻击者破坏。作者使用旨在读取手写数字的神经网络进行实验,通过扭曲神经网络训练的手写数字样本来破坏其阅读能力。

我担心恶意行为者可能会尝试入侵 AI。例如

  • 愚弄自动驾驶汽车以误解停车标志与限速。
  • 绕过面部识别,例如用于 ATM 的面部识别。
  • 绕过垃圾邮件过滤器。
  • 影评、酒店等的愚弄情感分析。
  • 绕过异常检测引擎。
  • 伪造语音命令。
  • 错误分类基于机器学习的医学预测。

什么样的对抗效应会扰乱世界?我们该如何预防呢?

4个回答

在我看来,从两个安全角度来看,人工智能很容易受到攻击:

  1. 利用彻底的编程错误在运行 AI 的机器上实现某种代码执行或提取数据的经典方法。

  2. 对系统旨在处理的特定形式的数据进行相当于 AI 错觉的诡计。

第一个必须以与任何其他软件相同的方式进行缓解。我不确定人工智能在这方面是否比其他软件更容易受到攻击,我倾向于认为复杂性可能会稍微增加风险。

第二个可能最好通过仔细改进系统(如其他一些答案中所述)以及通过使系统对上下文更加敏感来缓解;许多对抗性技术依赖于在真空中评估的输入。

程序员与程序员

这是一场“无限战争”:程序员 vs 程序员。所有东西都可以破解。预防与负责安全的专业人员和程序员在应用程序安全方面的知识水平有关。

例如,有几种方法可以识别试图弄乱情绪分析生成的指标的用户,但也有一些方法可以绕过这些步骤。这是一场相当无聊的战斗。

代理与代理

@DukeZhou 提出的一个有趣的观点是这场战争的演变,涉及两个人工智能(代理)。在那种情况下,战斗是最博学的之一。哪个是训练有素的模型,你知道吗?

然而,要在脆弱性问题上做到完美,人工智能或人工超级智能超越了绕过人类的能力。就好像迄今为止所有黑客的知识已经存在于这个特工的脑海中,他开始开发新的方法来绕过他自己的系统并开发保护。复杂,对吧?

我相信很难有一个人工智能会这样想:“人类会使用照片而不是让他的脸被识别吗?”

我们如何防止它

总是有人监督机器,但它不会 100% 有效。这忽略了代理可以单独改进自己的模型的可能性。

结论

所以我认为这个场景是这样运作的:程序员试图绕过人工智能的验证,而 IA 开发人员通过日志和测试获取知识,试图建立一个更智能、更安全的模型,试图减少失败的机会。

我们该如何预防呢?

有几部关于AI验证的作品。自动验证器可以证明神经网络的鲁棒性。这意味着如果 NN 的输入 X 受到的扰动不超过给定限制 ε(在某些度量中,例如 L2),那么 NN 会给出相同的答案。

此类验证者通过以下方式完成:

这种方法可能有助于检查神经网络的鲁棒性。下一步是构建这样一个需要鲁棒性的神经网络。上述一些论文还包含如何做到这一点的方法。

有不同的技术可以提高神经网络的鲁棒性:

至少最后一个可以证明可以使 NN 更加健壮。更多文献可以在这里找到。

我相信它是,没有系统是安全的,但是我不确定在 20 到 30 年的 AI 开发/进化之后我是否还能这么说。无论如何,有些文章显示人类在愚弄 AI(计算机视觉)。

https://www.theverge.com/2018/1/3/16844842/ai-computer-vision-trick-adversarial-patches-google

https://spectrum.ieee.org/cars-that-think/transportation/sensors/slight-street-sign-modifications-can-fool-machine-learning-algorithms