我正在观看Nando De Freitas的精彩演讲。
他通过使用最大似然估计来建立 KL 散度。
我确实从数学的角度理解这些步骤。我只是想知道他为什么要测量分布 P(x|theta) 和 P(x|theta_0) 之间的相似性。
我也想知道如何想象分布 P(x|theta_0)。
据我了解, theta_0 只是偏置项的参数。
为什么我们甚至需要为此分发?
我正在观看Nando De Freitas的精彩演讲。
他通过使用最大似然估计来建立 KL 散度。
我确实从数学的角度理解这些步骤。我只是想知道他为什么要测量分布 P(x|theta) 和 P(x|theta_0) 之间的相似性。
我也想知道如何想象分布 P(x|theta_0)。
据我了解, theta_0 只是偏置项的参数。
为什么我们甚至需要为此分发?
我只是想知道他为什么要测量分布之间的相似性和.
你有点问错问题了。如果我们在使用 MLE 的环境中,那么其背后的想法是我们使用最大化可能性的参数来估计模型的参数。真实的可能性() 实际上并不属于我们正在使用的可能性参数家族!
他在这里所做的事情表明最小化真实可能性和我们用于 MLE 的可能性族之间的 KL 差异。所以虽然真实可能实际上不在您正在执行 MLE 的可能性系列之内,这告诉我们的是,我们的可能性系列中的 MLE 将是该系列中最接近真实分布的. 这很好,因为即使我们偏离了模型规范,我们发现 MLE 在某种意义上仍然接近事实。