数据挖掘 - 如果我给它一个“简单”的功能，我的神经网络会变得懒惰吗？ - 吾爱随笔录

如果我给它一个“简单”的功能，我的神经网络会变得懒惰吗？

数据挖掘神经网络训练

2021-10-03 13:29:11

假设我从一个标准的卷积网络架构开始，该架构在 MNIST 上能够达到 99% 的准确率，例如这个，但是假设我将一个“简单”特征合并到全连接层，例如一个长度为 10 的向量，它编码正确的95% 的时间输出数字，否则输出随机数字。

我的网络会达到 99% 的准确率吗
到达那里需要更长的时间吗？

我认为问题 1 的答案是肯定的，因为我们应该总是能够在 conv 网络路径充分发挥其潜力之前找到错误的下坡路。事实上，我认为它可能会超过原始架构的准确性，因为我们正在泄漏有关正确输出标签的信息。

但是我对问题 2 不太确定。这是否会使误差函数的形状以任何方式不利？我无法决定达到与原始架构相同的精度是更快、更慢还是完全相同。

希望有一个简单的答案，否则我将进行实验并报告！

2个回答

有趣的理论问题。虽然我不能 100% 肯定地回答这个问题，但我自己的直觉和经验表明：

1）如果不是这样，我会感到非常惊讶。如果我们看不同的问题，我们有一个非常重要的特征来保存大部分信息，但还有一些其他特征，其中有一些信号，模型通常仍然通过添加这些较低值的特征来改进。这正是您在这里所做的，您拥有单独持有很少价值但组合起来的 MNIST 像素可以告诉您很多信息。通过添加如此强大的特征，这些像素的值下降了很多，但该值绝对不会降低到 0。我认为理论上这应该会导致一个严格更好的模型。

2）我认为平均收敛需要大约相同的时间。拟合 one-hot 编码特征将非常快，这意味着大部分时间将花费在拟合特征上，这与没有该特征的问题类似。然而，我们现在不是从 10% 到 99% 的准确度，而是从 95% 的准确度到 99.7% 的准确度。

我对第二个问题不太确定，但我认为如果你做（有趣的）实验，这就是你会发现的。让我们知道你是否实施它！

这也应该取决于网络架构：

如果成本函数对剩余的 5% 造成高惩罚，那么也应该学习它们。
如果架构使用 drop-out，那么这将迫使 NN 不依赖于一个简单的特性。

其它你可能感兴趣的问题

上一篇SMOTE-NC 背后的逻辑？下一篇检查时出错：预期 dense_1_input 具有形状 (None, 5) 但得到的数组具有形状 (200, 1)