“可能性”和“概率”有什么区别?

机器算法验证 可能性 术语 可能性 直觉
2022-02-05 09:56:48

维基百科页面声称可能性和概率是不同的概念。

在非技术术语中,“可能性”通常是“概率”的同义词,但在统计用法中存在明显的区别:在给定一组参数值的情况下,一些观察到的结果的概率数字被视为给定观察结果的参数值集的可能性。

有人可以更具体地描述这意味着什么吗?此外,“概率”和“可能性”如何不一致的一些例子会很好。

4个回答

答案取决于您处理的是离散随机变量还是连续随机变量。因此,我将相应地拆分我的答案。我假设您需要一些技术细节,而不一定是简单的英语解释。

离散随机变量

假设您有一个采用离散值的随机过程(例如,掷硬币 10 次的结果、10 分钟内到达商店的顾客数量等)。在这种情况下,我们可以通过对潜在的随机过程做出适当的假设来计算观察到一组特定结果的概率(例如,硬币正面朝上的概率是并且抛硬币是独立的)。p

表示观察到的结果,将描述随机过程的参数集表示为因此,当我们谈到概率时,我们想要计算换句话说,给定的特定值,是我们观察到由表示的结果的概率。OθP(O|θ)θP(O|θ)O

然而,当我们对现实生活中的随机过程进行建模时,我们通常不知道我们简单地观察,然后目标是得出对,这将是一个合理的选择我们知道,给定一个值,观察到的概率是因此,一个“自然”的估计过程是选择使我们实际观察到值。换句话说,我们找到最大化以下函数的参数值θOθOθOP(O|θ)θOθ

L(θ|O)=P(O|θ)

L(θ|O)称为似然函数。请注意,根据定义,似然函数以观察到的为条件,并且它是未知参数的函数。Oθ

连续随机变量

在连续情况下,情况相似,但有一个重要区别。我们不能再谈论在给定的概率,因为在连续情况下不涉及技术细节,基本思想如下:OθP(O|θ)=0

相关的概率密度函数 (pdf) 表示为:因此,在连续情况下,我们通过最大化以下函数来估计给定观察结果Of(O|θ)θO

L(θ|O)=f(O|θ)

在这种情况下,我们不能在技术上断言我们正在找到最大化我们观察到相关联的 PDF OO

这是几乎每个人都会回答的问题,我希望所有的答案都是好的。但是你是数学家,道格拉斯,所以让我给出一个数学回答。

统计模型必须连接两个不同的概念实体:数据,它是某个集合(例如向量空间)的元素 ,以及数据行为的可能定量模型模型通常由有限维流形、带边界的流形或函数空间(后者称为“非参数”问题)上的xθ

数据通过函数连接到可能的模型对于任何给定的旨在成为的概率(或概率密度) 。另一方面,对于任何给定可以被视为的函数,并且通常被假定具有某些好的属性,例如连续二阶可微。并调用这些假设的意图称为“可能性”来宣布的。xθΛ(x,θ)θΛ(x,θ)xxΛ(x,θ)θΛΛ

这很像微分方程中变量和参数的区别:有时我们想研究解(即,我们关注变量作为参数),有时我们想研究解如何随参数变化。主要区别在于,在统计学中,我们很少需要研究两组论点的同时变化。没有统计对象自然对应于改变数据和模型参数这就是为什么你比在类似的数学环境中听到更多关于这种二分法的原因。xθ

我会尽量减少我解释中的数学,因为已经有一些很好的数学解释。

正如 Robin Girard 评论的那样,概率和似然之间的差异与概率和统计之间的差异密切相关从某种意义上说,概率和统计关注的是彼此相反或相反的问题。

考虑抛硬币。(我的答案将类似于Wikipedia 上的示例 1。)如果我们知道硬币是公平的(),典型的概率问题是:连续两个正面朝上的概率是多少。答案是p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

一个典型的统计问题是:硬币公平吗?要回答这个问题,我们需要问:我们的样本在多大程度上支持我们的假设P(H)=P(T)=0.5

首先要注意的是问题的方向已经反转了。在概率上,我们从一个假设的参数()开始并估计给定样本的概率(连续两个正面)。在统计中,我们从观察开始(连续两个头)并对我们的参数进行推断()。P(head)p=P(H)=1P(T)=1q

Wikipedia 上的示例 1在连续 2 个正面之后的最大似然估计但数据绝不排除真正的参数值(我们暂时不关心细节)。实际上,只有非常小的值,特别是可以在(掷硬币两次)后合理消除。第三次出现反面之后,我们现在可以消除的可能性(即它不是双头硬币),但是数据可以合理地支持介于两者之间的大多数值P(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2P(H)=1.0. 的精确二项式 95% 置信区间为0.094 到 0.992。p(H)

在抛硬币 100 次和(比如说)70 次正面之后,我们现在有了合理的依据来怀疑硬币实际上是不公平的。上的精确 95% CI现在是 0.600 到 0.787,并且在的情况下,从 100 次投掷中观察到 70 个或更多正面(或反面)极端结果的概率为 0.0000785。p(H)p(H)=0.5

虽然我没有明确使用似然计算,但这个例子抓住了似然的概念:似然度是对样本为参数模型中参数的特定值提供支持的程度的度量

鉴于上述所有优秀的技术答案,让我回到语言:概率量化预期(结果),可能性量化信任(在模型中)。

假设有人向我们挑战“有利可图的赌博游戏”。然后,概率将帮助我们计算诸如您的收益和损失的预期概况(均值、众数、中位数、方差、信息比率、风险价值、赌徒破产等)之类的东西。相反,可能性将帮助我们量化我们是否首先信任这些概率;或者我们是否“闻到一只老鼠”。


顺便说一句——因为上面有人提到了统计学的宗教——我相信似然比是贝叶斯世界和常客世界的一个组成部分:在贝叶斯世界中,贝叶斯公式只是将先验与产生后验的可能性结合起来。