举个例子。让我们只考虑手写数字的 MNIST 数据集。以下是一些可能会影响最佳模型容量的因素:
- 有 10 个输出类
- 输入是 28x28 灰度像素(我认为这会间接影响模型容量。例如:如果输入是 5x5 像素,那么改变 8 的外观就没有太大空间了)
那么,有没有办法知道模型容量应该是多少?即使不准确?即使是对“如果X上升,那么Y下降”的类型的定性理解?
只是为了强调我说“不准确”时的意思:我已经可以看出 100 个变量的模型无法解决 MNIST,所以至少我有一个下限。我也很确定 1,000,000,000 个变量模型远远超出了需要。当然,知道比这更小的范围会更有用!