神经网络模型的可识别性

机器算法验证 神经网络 卷积神经网络 循环神经网络 可识别性
2022-03-22 08:01:55

大多数神经网络拓扑/架构是不可识别的,这很直观。但是该领域有哪些众所周知的成果呢?是否存在允许/阻止可识别性的简单条件?例如,

  • 所有具有非线性激活函数和多个隐藏层的网络都无法识别
  • 所有具有两个以上隐藏单元的网络都无法识别

或诸如此类的事情。注意:我并不是说这些条件会阻止可识别性(尽管它们对我来说似乎是不错的候选者)。它们只是我所说的“简单条件”的例子。

如果有助于缩小问题范围,请随意考虑仅前馈和循环架构。如果这还不够,我会对一个涵盖 MLP、CNN 和 RNN 中至少一种架构的答案感到满意。我在网上快速浏览了一下,但看起来我能找到的唯一讨论是在 Reddit 上。来吧,伙计们,我们可以比 Reddit 做得更好 ;-)

2个回答

至少有神经元组成的 1 层神经网络时的全局最优值这是因为,如果您在特定级别交换两个神经元,然后在下一个级别交换归属于这些神经元的权重,您将获得完全相同的拟合。n!n

线性、单层 FFN 未识别

该问题已被编辑以排除这种情况;我在这里保留它,因为理解线性情况是感兴趣现象的一个简单例子。

考虑一个具有 1 个隐藏层和所有线性激活的前馈神经网络。该任务是一个简单的 OLS 回归任务。

所以我们有模型并且目标是 y^=XAB

minA,B12||yXAB||22

对于一些适当形状是输入到隐藏的权重,是隐藏到输出的权重。A,BAB

显然,权重矩阵的元素通常是不可识别的,因为有任意数量的可能配置,两对矩阵具有相同的乘积。A,B

非线性、单层 FFN仍然无法识别

从线性单层 FFN 构建,我们还可以观察到非线性单层 FFN 中的不可识别性。

例如,将非线性添加到任何线性激活都会创建一个非线性网络。这个网络仍然没有被识别,因为对于任何损失值,一个层的两个(或多个)神经元的权重的排列,以及它们在下一层的相应神经元的权重,同样会导致相同的损失值。tanh

一般来说,神经网络是不可识别的

我们可以使用相同的推理来证明神经网络在除非常特殊的参数化之外的所有参数中都是不可识别的。

例如,卷积滤波器必须以任何特定顺序出现并没有特别的原因。卷积滤波器也不需要具有任何特定的符号,因为随后的权重可能具有相反的符号来“反转”该选择。

同样,可以置换 RNN 中的单元以获得相同的损失。

另请参阅:我们可以使用 MLE 来估计神经网络权重吗?