数据挖掘 - 为什么神经网络不使用自由度的概念？ - 吾爱随笔录

在大多数（如果不是全部）NMIST 神经网络教程中，您会看到最后两层减少为多层感知器 (MLP)，标签数量为 0-9，总共 10 个标签。在统计学中众所周知，当你有 10 个标签时，你可以将其中一个的分数设置为 0，让其他 9 个不同。这是自由度的概念，其中允许 9 个变量“自由运行”，但一个变量可以保持固定，从而导致 9 个自由度。更直观地说，当您计算图像是特定数字的概率时，您只需指定它是 9 个数字之一的概率，因为所有 10 个标签的概率总和必须为 1，因此剩余标签的概率必须为1 - sum(of the other 9)。

问题是：为什么神经网络不利用这种自由度的想法，而是估计score所有 10 个标签的 a 而不是将score其中一个标签固定为0？