优化呢?
让我们看看我是否理解正确。你有一个模型以一些观察和一组参数和先验为条件,导致。参数根据已知的多元正态分布,即。你想找到这个问题的 MAP 解决方案,即
这个问题的一个特例在神经网络社区中得到了很好的研究,称为权重衰减。在这种情况下,和。p(y|x,θ)xθp(θ)L=p(y|x,θ)p(θ)θ∼N(μ,Σ)argmaxθL.
μ=0Σ=Iσ2
正如您已经指出的那样,诀窍是。当你取高斯密度的对数时,许多丑陋的项(指数)消失了,你最终会得到像。如果你把它区分开来,Sam Roweis 的矩阵恒等式就会派上用场,让你得出argmaxθL=argmaxθlogLlogp(θ)=−12(θ−μ)TΣ−1(θ−μ)+const
−12∂(θ−μ)TΣ−1(θ−μ)∂θ=−Σ−1(θ−μ).
(请验证,这是在我的脑海中快速完成的。)连同您的模型的衍生物,您可以使用现成的优化器来获得 MAP 解决方案。
更新:合并了 David J. Harris 的评论。公式现在应该是正确的。