我目前正在阅读深度学习书中的卷积神经网络。我被困在第 9.4 节,标题为“卷积和池化为无限字符串先验”。
有人可以直观地向我解释什么是先验概率分布,以及它与 CNN 上下文中的卷积和池化操作有何关联。谢谢!
我目前正在阅读深度学习书中的卷积神经网络。我被困在第 9.4 节,标题为“卷积和池化为无限字符串先验”。
有人可以直观地向我解释什么是先验概率分布,以及它与 CNN 上下文中的卷积和池化操作有何关联。谢谢!
先验分布在不观察任何数据的情况下表达了您对模型的假设。例如,在进行线性回归时,您先验地假设斜率接近于零。现在您开始测量数据点,结果表明斜率应该接近 1,因此您妥协并选择一个介于两者之间的值。如果您对先前假设的零斜率的信念很弱,则不需要太多数据来说服您选择更接近一的斜率。如果你的信念很坚定,无论如何你都会选择一个接近于零的斜率,并要求查看许多数据点,直到你慢慢地将它移向一个。
在回归的情况下,您的信念强度将由优化目标中正则化项的权重参数化。对于神经网络,正则化和先验之间的联系是相同的(更多细节请参见此处)。
因此,您可以将先验的强度视为您需要查看多少证据的量度,直到您偏离您对模型的先验假设。
当你训练一个 CNN 时,你先验地假设这个网络结构最适合你的问题,即模型应该在内部计算卷积。由于模型中内置了 CNN 结构,因此再多的数据都无法说服您放弃这种结构,转而使用全连接的 NN。因此,先验是无限强的。
池等的论点将是相似的。我什至会声称,即使不是所有不可训练的参数,大多数也可以被视为无限强的先验。