假设我从一个标准的卷积网络架构开始,该架构在 MNIST 上能够达到 99% 的准确率,例如这个,但是假设我将一个“简单”特征合并到全连接层,例如一个长度为 10 的向量,它编码正确的95% 的时间输出数字,否则输出随机数字。
- 我的网络会达到 99% 的准确率吗
- 到达那里需要更长的时间吗?
我认为问题 1 的答案是肯定的,因为我们应该总是能够在 conv 网络路径充分发挥其潜力之前找到错误的下坡路。事实上,我认为它可能会超过原始架构的准确性,因为我们正在泄漏有关正确输出标签的信息。
但是我对问题 2 不太确定。这是否会使误差函数的形状以任何方式不利?我无法决定达到与原始架构相同的精度是更快、更慢还是完全相同。
希望有一个简单的答案,否则我将进行实验并报告!