概率上的误差线有什么意义吗?

机器算法验证 可能性 错误
2022-02-02 08:18:29

人们常说某些事件有 50-60% 的机会发生。有时我什至会看到人们在概率分配上给出明确的误差线。这些陈述是否有任何意义,或者它们只是一种不适的语言怪癖,为本质上不可知的事物选择特定数字?

4个回答

如果您谈论的是已知概率,那就没有意义了,例如,根据定义,用公平硬币投掷正面的概率是 0.5。但是,除非您在谈论教科书示例,否则永远不会知道确切的概率,我们只知道大约。

不同的情况是当您从数据中估计概率时,例如,您在购买的 12563 张彩票中观察到 13 张中奖彩票,因此您根据该数据估计概率为 13/12563。这是您从样本中估计的,因此不确定,因为使用不同的样本您可以观察到不同的值。不确定性估计不是关于概率,而是围绕它的估计。

另一个例子是概率不是固定的,而是取决于其他因素。假设我们正在谈论死于车祸的概率。我们可以考虑“全局”概率,即在直接和间接导致车祸的所有因素中被边缘化的单一值。另一方面,您可以考虑在给定风险因素的情况下,人群之间的概率如何变化。

您可以找到更多将概率本身视为随机变量的示例,因此它们会发生变化而不是固定不变。

来自 xkcd 的最相关的插图

在此处输入图像描述

带有相关标题:

...效果大小为 1.68 (95% CI: 1.56 (95% CI: 1.52 (95% CI: 1.504 (95% CI: 1.494 (95% CI: 1.488 (95% CI: 1.485 (95% CI: 1.482 (95% CI: 1.481 (95% CI: 1.4799 (95% CI: 1.4791 (95% CI: 1.4784...

我知道两种解释。第一个是蒂姆说的:我们观察到X成功出自Y试验,所以如果我们相信试验是独立同分布的,我们可以估计这个过程的概率X/Y带有一些误差线,例如顺序1/Y.

第二个涉及“高阶概率”或关于生成过程的不确定性。例如,假设我手里有一个手工艺赌徒制造的硬币,他用0.5概率制造了一个 60% 正面的硬币,并且0.5概率做出了 40% 正面的硬币。我最好的猜测是硬币正面朝上的概率为 50%,但误差线很大:“真实”概率为 40% 或 60%。

换句话说,您可以想象将实验运行十亿次并获得成功的一小部分X/Y(实际上是限制分数)。至少从贝叶斯的角度来看,给出例如围绕该数字的 95% 置信区间是有意义的。在上面的例子中,根据目前的知识,这是[0.4,0.6]. 对于真正的硬币,也许是[0.47,0.53]或者其他的东西。有关更多信息,请参阅:

我们需要高阶概率吗?如果需要,它们是什么意思?朱迪亚珍珠。UAI 1987. https://arxiv.org/abs/1304.2716

所有的测量都是不确定的。

因此,任何概率的测量也是不确定的。

这种概率测量的不确定性可以用不确定性条直观地表示。请注意,不确定性条通常被称为误差条。这是不正确的或至少具有误导性,因为它显示的是不确定性而不是误差(误差是测量值与未知真相之间的差异,因此误差是未知的;不确定性是对取值后概率密度宽度的度量测量)。

一个相关的话题是元不确定性不确定度描述了一个后验概率分布函数的宽度,在A类不确定性(通过重复测量估计的不确定性)的情况下,不确定性不可避免地存在不确定性;计量学家告诉我,在这种情况下,计量实践要求扩大不确定性(IIRC,如果不确定性是通过 N 次重复测量的标准偏差估计的,则应将所得标准偏差乘以NN2),这本质上是一种元不确定性。