我已经为此苦苦挣扎了一段时间。一个典型的优化问题可以看作是优化一些成本函数,它是数据项和鼓励某些解决方案的惩罚项的组合。通常两者之间有一个加权项。
在贝叶斯设置中,这可以用通常的先验和似然函数来解释。在我试图理解的当前问题中,我将先验建模为具有零均值且精度矩阵等于的多元正态,其中可以认为是这种正则化加权,而是一些适当的精度矩阵以某种方式对合理解决方案进行编码的结构。在我的特定示例中,精度矩阵对估计参数进行了一些平滑约束,即先验鼓励平滑解决方案。在这种情况下,表示这个平滑惩罚项的强度。 _零表示我们只优化成本函数(即似然函数)的 ML 估计。这是因为随着的减小,精度降低,因此先验中每个参数的方差增加。的低值将向非正则化解决方案移动。
现在,我看到的一个典型的事情是存在某种迭代方案,我们首先从的近似值开始,并使用一些近似方案(如变分贝叶斯或期望传播)来计算另一个感兴趣的参数的分布的估计(假设上的先验是共轭形式的,通常用 Gamma 分布完成,它也保持正数)。
现在,我的问题是,如果我从一个非常低的值作为我的近似值开始,那么前一项几乎不会有任何影响。这不会将估计分布推向不太合理的解决方案,即基本上给非正则化解决方案提供高概率?我很难理解这个更新方案如何实际找到的好值,即找到相对于观察到的数据而言最佳所以,基本上我难以理解的是,是什么阻止了将的这个值推低到零或接近零的推理,以更喜欢非正则化的最大似然估计?我真的不明白这个值如何是由数据或证据项驱动的。