频率学派和贝叶斯学派在似然度的定义上有什么区别吗?

机器算法验证 可能性 贝叶斯 条件概率 可能性 常客
2022-01-29 13:57:49

一些消息来源说似然函数不是条件概率,有人说它是。这让我很困惑。

根据我见过的大多数资料,带有参数的分布的可能性应该是给定样本的概率质量函数的乘积θnxi

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

例如在 Logistic Regression 中,我们使用优化算法来最大化似然函数(Maximum Likelihood Estimation)以获得最优参数,从而获得最终的 LR 模型。给定训练样本,我们假设它们彼此独立,我们希望最大化概率的乘积(或联合概率质量函数)。这对我来说似乎很明显。n

根据关系:可能性、条件概率和故障率,“可能性不是概率,也不是条件概率”。它还提到,“可能性是仅在贝叶斯对可能性的理解中的条件概率,即,如果您假设是随机变量。”θ

我读到了频率论者和贝叶斯论者处理学习问题的不同观点。

根据消息来源,对于贝叶斯推理,我们有先验,似然,我们希望使用贝叶斯定理获得后验P(θ)P(X|θ)P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

我不熟悉贝叶斯推理。为什么是观察数据的分布,其条件是其参数,也称为似然性?Wikipedia中,它有时会写成这是什么意思?P(X|θ)L(θ|X)=p(X|θ)

频率论者和贝叶斯论者对可能性的定义有区别吗?

谢谢。


编辑:

解释贝叶斯定理有不同的方式 - 贝叶斯解释和频率解释(参见:贝叶斯定理 - 维基百科)。

3个回答

定义没有区别——在这两种情况下,似然函数都是与采样密度成比例的参数的任何函数。严格来说,我们不要求似然等于采样密度;它只需要成比例,这允许删除不依赖于参数的乘法部分。

采样密度被解释为数据的函数,以参数的指定值为条件,似然函数被解释为固定数据向量的参数的函数。因此,在 IID 数据的标准情况下,您拥有:

Lx(θ)i=1np(xi|θ).

在贝叶斯统计中,我们通常将贝叶斯定理以最简单的形式表达为:

π(θ|x)π(θ)Lx(θ).

贝叶斯定理的这个表达式强调它的两个乘法元素都是参数的函数,这是后验密度中感兴趣的对象。(这个比例结果完全定义了规则,因为后验是一个密度,所以有一个独特的乘法常数使它集成为一个。)正如您在更新中指出的那样,贝叶斯和频率主义哲学具有不同的解释结构。在频率论范式中,参数通常被视为“固定常数”,因此它不属于概率度量。因此,频率论者拒绝将先验或后验分布归因于参数(有关这些哲学和解释差异的更多讨论,请参见例如O'Neill 2009)。

似然函数独立于或之前用于推断的统计范式定义为参数 \theta 函数的函数L \(或这取决于或由可用于此推断的观察并且还隐含地取决于选择来表示数据中的可变性或随机性的概率模型族。对于对的给定值,该函数的值与模型在L(θ;x)L(θ|x)θx(θ,x)x索引时θ这通常被粗略地翻译为“数据的概率”。

引用比这个论坛上一个更早的答案更权威和历史的资料,

“我们可以讨论可以观察到的量的发生概率……与任何可能被建议解释这些观察结果的假设有关。我们对假设的概率一无所知……[我们]可以确定可能性假设……通过观察计算:……谈论可观察量的可能性……没有意义。” RA Fisher,关于从小样本推导出的相关系数的“可能误差”Metron 1, 1921, p.25

“我们可以从样本中找到任何特定 r 值的可能性,如果我们将可能性定义为与概率成比例的量,即从具有特定 r 值的总体中,样本具有观察值 r , 应该得到。” RA Fisher,关于从小样本推导出的相关系数的“可能误差”Metron 1, 1921, p.24

其中提到了杰弗里斯(和我)认为多余的比例:

“..可能性,RA Fisher 教授介绍的一个方便的术语,尽管在他的用法中,它有时会乘以一个常数因子。这是在给定原始信息和正在讨论的假设的情况下观察到的概率。” H. Jeffreys,概率论,1939 年,第 28 页

仅引用John Aldrich(统计科学,1997 年)对该主题的出色历史条目中的一句话:

“Fisher (1921, p. 24) 重新起草了他在 1912 年写的关于逆概率的内容,区分了可以对概率密度和可能性执行的数学运算:可能性不是“微分元素”,它不能被积分。” J. Aldrich, RA Fisher 和最大似然的形成 1912 – 1922 , 1997 , p.9

当采用贝叶斯方法时,似然函数的形状或性质不会改变。它一直是索引的处的密度。附加特征是,由于也被赋予概率模型,先验分布,索引的处的密度也可以解释为条件的实现为条件:在贝叶斯建模中,的一个实现是从先验产生的, 密度为 ,然后 ,xθθxθθθπ()Xx, 由密度为索引换句话说,对于适当的支配性度量,对具有联合密度 ,从中可以得出的后验密度,即的条件密度,的实现为条件 也表示为 Jeffreys (1939)以来发现。L(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

注意:我发现Wikipedia 页面的介绍中关于常客和贝叶斯可能性之间的似然函数的区别令人困惑和不必要,或者完全错误,因为大多数当前的贝叶斯统计学家没有使用可能性作为后验概率的替代品。同样,在维基百科页面中指出的关于贝叶斯定理的“差异”听起来比其他任何东西都更令人困惑,因为这个定理是关于条件变化的概率陈述,独立于范式或概率陈述的含义。在我看来,它更像是一个定义而不是一个定理!)

作为一个小附录:

“可能性”这个名称完全具有误导性,因为有很多不同的可能含义。不仅是“普通语言”之一,而且在统计中也是如此。我能想到至少三种不同但甚至相关的表达方式,它们都被称为可能性;即使在教科书中。

也就是说,当采用似然的乘法定义时,其中没有任何东西可以将其转化为其(例如公理化)定义意义上的任何概率。它是一个实数值。您可以做很多事情来计算概率或将其与概率相关联(取比率、计算先验和后验等)——但就概率而言,它本身没有任何意义。

西安提供的信息量更大、更全面的答案或多或少已经过时了。但根据要求,一些教科书对可能性的定义:

  • 函数L(x;θ)
  • 在某些观测数据(最大 L.、最小 L.、log-L. 等)的条件下的“最佳”值的方法θ
  • 不同先验(例如在分类任务中)的似然值的比率......此外,人们可以尝试归因于上述元素的(ab)使用的不同含义。