对抗性机器学习中的因果攻击和探索性攻击是什么?

人工智能 神经网络 机器学习 深度学习 分类 对抗性毫升
2021-11-05 03:25:54

我一直在研究对抗性机器学习,我知道导致攻击是攻击者操纵训练数据的时候。探索性攻击是攻击者想要了解机器学习模型的情况。但是,关于攻击者如何仅操纵训练数据而不操纵测试数据集的信息并不多。

我已经阅读了攻击者执行探索性攻击以了解 ML 模型然后执行恶意输入以篡改训练数据以使模型给出错误输出的场景。但是,这种输入操作不应该同时影响测试和训练数据集吗?这种篡改如何只影响训练数据集而不影响测试数据集?

1个回答

当某人能够进行因果攻击时,这意味着存在一种机制,他们可以通过该机制将数据输入网络。也许是一个人们可以输入他们的图像的网站,它会输出对图片中内容的猜测,然后你点击它是否正确。如果您继续输入图像并对其撒谎,那么如果他们使用用户输入添加到测试集中,显然会变得越来越糟。大多数人都很小心,不会在测试样本中混入新数据。如果他们做了诸如混合用户输入训练和测试之类的事情,然后重新采样可能会发生类似的事情,但大多数人不会这样做。这是不好的做法,甚至比让您的 NN 被恶意用户输入篡改更糟糕。信息并没有真正添加知识中在模型中,直到它被输入模型并发生反向传播。

探索性攻击正在向模型发送大量查询,以获取有关他们已构建到模型中的数据集的信息,甚至提取有关构建到模型中的个人数据片段的数据。然后,利用这些信息,他们可以尝试重建数据集。他们可以尝试通过发送奇怪的生成输入来欺骗网络。

在 Ling Huang 等人的论文Adversarial Machine Learning (2011) 的第 2 节中,作者在类别影响下定义了这些术语。

影响

因果- 因果攻击通过影响训练数据来改变训练过程。

探索性- 探索性攻击不会改变训练过程,而是使用其他技术(例如探测检测器)来发现有关它或其训练数据的信息。

它们还提供了其他相关定义。

安全违规

完整性- 完整性攻击导致入侵点被归类为正常(误报)。

可用性- 可用性攻击会导致如此多的分类错误,包括误报和误报,以至于系统实际上变得无法使用。

隐私——在侵犯隐私的情况下,攻击者从学习者那里获取信息,从而损害系统用户的保密性或隐私性。

特异性(连续光谱)

有针对性的——在有针对性的攻击中,重点是单个或一小组目标点。

不分青红皂白的 - 不分青红皂白的对手有一个更灵活的目标,其中涉及非常普遍的一类点,例如“任何假阴性”。