Kullback-Leibler 散度

机器算法验证 机器学习 自习 最大似然 kullback-leibler
2022-04-18 03:17:06

我正在观看Nando De Freitas精彩演讲。

他通过使用最大似然估计来建立 KL 散度。

但是,有一个步骤我不太明白。 在此处输入图像描述

我确实从数学的角度理解这些步骤。我只是想知道他为什么要测量分布 P(x|theta) 和 P(x|theta_0) 之间的相似性。

我也想知道如何想象分布 P(x|theta_0)。

据我了解, theta_0 只是偏置项的参数。

为什么我们甚至需要为此分发?

1个回答

我只是想知道他为什么要测量分布之间的相似性p(x|θ)p(x|θ0).

你有点问错问题了。如果我们在使用 MLE 的环境中,那么其背后的想法是我们使用最大化可能性的参数来估计模型的参数。真实的可能性(p(x|θ0)) 实际上并不属于我们正在使用的可能性参数家族!

他在这里所做的事情表明that performing MLE is equivalent最小化真实可能性和我们用于 MLE 的可能性族之间的 KL 差异。所以虽然真实p(x|θ0)可能实际上不在您正在执行 MLE 的可能性系列之内,这告诉我们的是,我们的可能性系列中的 MLE 将是该系列中最接近真实分布的in KL divergence. 这很好,因为即使我们偏离了模型规范,我们发现 MLE 在某种意义上仍然接近事实。