似然函数不是pdf(概率密度函数)的原因是什么?
似然函数不是pdf的原因是什么?
我们将从两个定义开始:
概率密度函数 (pdf)的非负函数。
可能性定义为作为参数函数的观测数据的联合密度。但是,正如@whuber 在下面的评论中对 Lehmann 的引用所指出的那样,似然函数只是参数的函数,数据保持为固定常数。因此,它是作为数据函数的密度这一事实是无关紧要的。
因此,似然函数不是 pdf,因为它相对于参数的积分不一定等于 1(实际上,正如 @whuber 的另一条评论所指出的那样,它可能根本不可积)。
为了看到这一点,我们将使用一个简单的示例。假设您有一个来自分布的单一观测值那么似然函数是
是一个事实。具体来说,如果,则,所以
时也适用类似的计算。因此,不能是密度函数。
也许比这个显示可能性不是概率密度的技术示例更重要的是指出可能性不是参数值正确的概率或类似的东西 -它是数据的概率(密度)给定参数 value,这是完全不同的事情。因此,不应期望似然函数表现得像概率密度。
好的,但似然函数是给定参数的观测数据的联合概率密度。因此,它可以被归一化以形成概率密度函数。所以它本质上就像一个pdf。
可能性定义为,其中如果 f(x; θ) 是概率质量函数,则似然总是小于一,但如果 f(x; θ) 是概率密度函数,则似然可以大于一,因为密度可以大于一。
通常观察是独立同分布的,那么:
让我们看看它的原始形式:
根据贝叶斯推论,成立,即。请注意,最大似然估计将证据与先验的比率视为常数(请参阅此问题的答案),它忽略了先验信念。可能性与基于估计参数的后验具有正相关。可能是 pdf 但不是因为只是的一部分,这是难以处理的。
例如,我不知道高斯分布的均值和标准方差,并希望通过使用来自该分布的大量观察进行训练来获得它们。我首先随机初始化均值和标准方差(它定义了高斯分布),然后我采用一种情况并拟合估计分布,我可以从估计分布中得到概率。然后我继续把案例放进去,得到很多概率,然后我把这些概率相乘得到一个分数。这种分数就是可能性。几乎不可能是某个pdf的概率。
我不是统计学家,但我的理解是,虽然似然函数本身不是关于参数的 PDF,但它与贝叶斯规则的 PDF 直接相关。似然函数 P(X|theta) 和后验分布 f(theta|X) 紧密相关;根本不是“完全不同的东西”。