如果我给它一个“简单”的功能,我的神经网络会变得懒惰吗?

数据挖掘 神经网络 训练
2021-10-03 13:29:11

假设我从一个标准的卷积网络架构开始,该架构在 MNIST 上能够达到 99% 的准确率,例如这个,但是假设我将一个“简单”特征合并到全连接层,例如一个长度为 10 的向量,它编码正确的95% 的时间输出数字,否则输出随机数字。

  1. 我的网络会达到 99% 的准确率吗
  2. 到达那里需要更长的时间吗?

我认为问题 1 的答案是肯定的,因为我们应该总是能够在 conv 网络路径充分发挥其潜力之前找到错误的下坡路。事实上,我认为它可能会超过原始架构的准确性,因为我们正在泄漏有关正确输出标签的信息。

但是我对问题 2 不太确定。这是否会使误差函数的形状以任何方式不利?我无法决定达到与原始架构相同的精度是更快、更慢还是完全相同。

希望有一个简单的答案,否则我将进行实验并报告!

2个回答

有趣的理论问题。虽然我不能 100% 肯定地回答这个问题,但我自己的直觉和经验表明:

1)如果不是这样,我会感到非常惊讶。如果我们看不同的问题,我们有一个非常重要的特征来保存大部分信息,但还有一些其他特征,其中有一些信号,模型通常仍然通过添加这些较低值的特征来改进。这正是您在这里所做的,您拥有单独持有很少价值但组合起来的 MNIST 像素可以告诉您很多信息。通过添加如此强大的特征,这些像素的值下降了很多,但该值绝对不会降低到 0。我认为理论上这应该会导致一个严格更好的模型。

2)我认为平均收敛需要大约相同的时间。拟合 one-hot 编码特征将非常快,这意味着大部分时间将花费在拟合特征上,这与没有该特征的问题类似。然而,我们现在不是从 10% 到 99% 的准确度,而是从 95% 的准确度到 99.7% 的准确度。

我对第二个问题不太确定,但我认为如果你做(有趣的)实验,这就是你会发现的。让我们知道你是否实施它!

这也应该取决于网络架构:

  • 如果成本函数对剩余的 5% 造成高惩罚,那么也应该学习它们。
  • 如果架构使用 drop-out,那么这将迫使 NN 不依赖于一个简单的特性。