机器算法验证 - 为什么最大似然估计使用 pdf 的乘积而不是 cdfs - 吾爱随笔录

为什么最大似然估计使用 pdf 的乘积而不是 cdfs

机器算法验证最大似然密度函数累积分布函数

2022-03-10 04:04:52

我正在学习逻辑回归，当我看到教科书的方程式时感到困惑。我知道对于连续分布，要计算概率，pdf $f(x)$ 是没有意义的。而是累积密度函数 $F(x)$ 应使用。因此，既然我们要最大化概率，我们不应该在 MLE 方程的右侧使用cdf s 的乘积而不是pdf s 吗？谢谢！

更新和其他问题：

这个问题提出了一个有趣的观点，即为什么我们不经常使用 $Y=F(X)\sim U(0,1)$ 然后尝试最小化之间的KL散度 $Y$ 和 $U$ ：

KL (Y, U) = \int_{0}^{1} f_{y} (y) \ln f_{y} (y) d y

$\text{KL}(Y, U) = \int_0^1 f_y(y) \ln f_y(y) \text{d}y$

通常，我们可以轻松访问以下形式 $f$ （原始pdf）但是 $F$ 可能不太容易处理并且 $f_Y$ 基本上是我们需要使用基于样本的经验 CDF 来估计的东西 $F(X_i), i=...$ . 问题是，这两种公式（通常的 MLE 和上面的 KL 版本）的结果是否有很大不同？

2个回答

如何使用 CDF 对模型的两个可能的参数化进行排名？它是一个累积概率，所以它只能告诉我们在给定概率模型的情况下，获得这样一个结果的概率或更低的值。如果我们采取 $\theta$ 为了预测最小的可能结果，每次观察时 CDF 几乎为 1，这将是最“可能”的，因为“是的，如果平均高度真的是 -99，我非常有信心重复我的样本会产生值比我观察到的要小”。

我们可以平衡左累积概率和右累积概率。在我们的计算中考虑相反的情况：中值无偏估计量满足：

P (X < θ) = P (X > θ)

$P(X < \theta) = P(X > \theta)$

这里的最佳价值 $\theta$ 是那个 $X$ 同样可能大于或小于其预测值（假设 $\theta$ 是这里的意思）。但这肯定不符合我们能够将替代参数化排序为更可能用于特定样本的想法。

也许，另一方面，你想确定 $X$ 在值的小区间内很有可能，即最大化该概率：

P (θ - d < X < θ + d) / d = (F (X + d) - F (X - d)) / d

$P(\theta - d < X < \theta + d)/d = \left(F(X+d) - F(X-d)\right)/d$

但是应该多大 $d$ 是？那么如果 $d$ 被认为是任意小的：

lim_{d \to 0} (F (X + d) - F (X - d)) / d = f (X)

$\lim_{d \rightarrow 0} \left(F(X+d) - F(X-d)\right)/d = f(X)$

你得到密度。瞬时概率函数最能表征参数化下特定观察的可能性。

您有一个经验数据集，并希望找到假设分布的最佳拟合参数。假设您的经验是高斯，平均值为 50，标准差 10。

让算法进行猜测...均值 0，标准差 1。您的真实点将远远落后于这个猜测，但我们可以通过基于均值 0 的假设乘以您的值的所有概率来总结它， sd 1. 实际上，让我们对日志求和，而不是相乘，因为这样更易于管理。此外，由于我们的算法喜欢最小化而不是最大化，我们将翻转符号，因此您最终得到 -logLiklihood。

事实证明，当您对均值和 sd 做出正确猜测时，-LogLiklihood 将小于错误猜测。冲洗并重复，直到 -logLiklihood 的变化足够小，并且适合您。

CDF 本身并不适合这种目标函数。乘以 PDF 的乘积（或对日志求和）从字面上告诉您，您的数据在特定参数集的假设下的可能性。

其它你可能感兴趣的问题

上一篇一个不能改善样本外预测的“重要变量”——如何解释？下一篇什么是概率规划？