论文The Limitations of Deep Learning in Adversarial Settings探讨了神经网络如何被可以操纵神经网络训练的数据集的攻击者破坏。作者使用旨在读取手写数字的神经网络进行实验,通过扭曲神经网络训练的手写数字样本来破坏其阅读能力。
我担心恶意行为者可能会尝试入侵 AI。例如
- 愚弄自动驾驶汽车以误解停车标志与限速。
- 绕过面部识别,例如用于 ATM 的面部识别。
- 绕过垃圾邮件过滤器。
- 影评、酒店等的愚弄情感分析。
- 绕过异常检测引擎。
- 伪造语音命令。
- 错误分类基于机器学习的医学预测。
什么样的对抗效应会扰乱世界?我们该如何预防呢?