在大多数(如果不是全部)NMIST 神经网络教程中,您会看到最后两层减少为多层感知器 (MLP),标签数量为 0-9,总共 10 个标签。在统计学中众所周知,当你有 10 个标签时,你可以将其中一个的分数设置为 0,让其他 9 个不同。这是自由度的概念,其中允许 9 个变量“自由运行”,但一个变量可以保持固定,从而导致 9 个自由度。更直观地说,当您计算图像是特定数字的概率时,您只需指定它是 9 个数字之一的概率,因为所有 10 个标签的概率总和必须为 1,因此剩余标签的概率必须为1 - sum(of the other 9)
。
问题是:为什么神经网络不利用这种自由度的想法,而是估计score
所有 10 个标签的 a 而不是将score
其中一个标签固定为0
?