卷积神经网络会识别编码图像中的模式吗?

人工智能 神经网络 卷积神经网络 图像识别
2021-10-23 17:12:33

我有一组图像,我已经训练了 CNN 以成功分类。我想知道是否可以对图像进行编码(使用 XOR 结合与图像长度相同的密钥)并在它们上训练一个新网络。

从逻辑上思考,特征之间仍然存在相同的关系,只是以不同的形式(编码)。考虑到神经网络在模式识别方面令人难以置信,我认为它仍然是可行的。

对于无法想象异或编码图像的人来说: 使用随机密钥编码图像的示例

对于人类来说,它可能看起来像垃圾,但信息肯定在那里。

很想阅读您的意见。

3个回答

首先你应该试一试,因为任何人的猜测都可能是错误的,因为实际上并没有一个完整的高级分析模型来说明神经网络如何处理真实数据。神经网络的大多数结果都是由理论得出的,但涉及大量的实验测试。

我怀疑您的网络至少可以从新图像中学到一些东西,但很难获得与没有噪声时相同的准确度,因为 CNN 过滤器依赖于能够检测不同位置的相似特征。在您的加扰图像中,不会有任何有意义且一致的边缘/角等,单个学习的特征检测器可以学习匹配(因此呈现给下一层)。

全连接网络不会有这个限制,并且会像在原始副本上那样学习一组二进制特征,这些特征在每个示例的每个位置都进行了相同的异或运算(即仅当图片为 1 位深度)。如果每个特征都是一个缩放的 8 位像素值,并且在每个像素位置与相同的 8 位随机数进行异或运算,它的学习效果就会较差,因为这会在输入和输出之间引入更多的非线性映射。当然,一个完全连接的网络通常不会像 CNN 一样学习图像任务。. . 但如果它可以学到任何对你的图像问题有用的东西,那么在加扰效应之后它可能会胜过 CNN。

由于 CNN 通常有几个完全连接的层,所以有可能从你的加扰图像中得到一些东西。

从逻辑上思考,特征之间仍然存在相同的关系,只是形式不同(编码)

就以 CNN 过滤器提取它们的方式可识别而言,这些特征不存在。这是一个问题。

您的问题的答案取决于您对图像进行异或处理的噪声的性质。如果噪声是随机的(或正式意义上的伪随机),那么可以证明原始模式在统计学习理论意义上是不可学习的;这种场景相当于一次性pad的应用。

引用相关的维基百科文章:

一次性密本是“信息理论上安全的”,因为加密的消息(即密文)不向密码分析者提供有关原始消息的信息(消息的最大可能长度[16] 除外)。这是 Claude Shannon 在二战期间首次提出的一个非常强烈的安全概念,并且在数学上证明了大约在同一时间,Shannon 的一次性便笺本是正确的。

根据我将在下面提到的论文,我的直觉是,的,如果你在训练和测试数据上应用相同的 XOR 操作,你将能够训练出一个非常“准确”的分类器。

为了详细说明我的“直觉”感受,请允许我向您介绍一下我个人认为是今年发表的最重要的论文之一(实际上这篇论文在 ICLR 2017 上获得了最佳论文奖):

理解深度学习需要重新思考泛化

在本文中,作者表明深度学习模型将推广到“任何”数据集。举一个他们在本文中进行的实验的例子:

  • 他们随机打乱了训练集和测试集的标签,例如,一些猫的图像被标记为狗,而一些狗的名字被命名为猫,而一些猫和狗的图像仍然被正确标记。现在众所周知,深度学习模型(包括 CNN)对一些噪声标签具有很强的抵抗力,但在上述论文中进行的实验中,这是一个相当大的噪声量,这引出了一个问题,为什么神经网络在什么方面仍然表现良好最终成为垃圾数据集。

这个故事的寓意与过去大多数研究人员所相信的相反,即深度学习模型神奇地发现隐藏在数据集中的低级特征、中级特征和高级特征,更像哺乳动物大脑的 V1 系统通过学习压缩数据,他们似乎只记住了你给他们的任何东西,包括随机数据。

简而言之,上面提到的论文表明深度学习模型可以很好地推广到完全随机的噪声(在你的情况下,想想从随机像素生成的图像)​​。深度学习模型可以很好地推广到任何事物。如果他们可以推广到没有结构的随机数据,那么经过固定的、预定义的转换(如 XOR)的图像对于深度学习模型来说毫无意义。

我必须说,这是非常令人担忧的发现——至少对我而言。