如果 1000 人中有 900 人说汽车是蓝色的,那么它是蓝色的概率是多少?

机器算法验证 可能性
2022-02-02 14:23:44

这最初是在我们对自然文本分类模型所做的一些工作中出现的,但我已经简化了它......也许太多了。

你有一辆蓝色的车(通过一些客观的科学衡量——它是蓝色的)。

你把它展示给1000人。

900说它是蓝色的。100不。

您将此信息提供给看不到汽车的人。他们只知道有 900 人说它是蓝色的,而 100 人没有。你对这些人(1000 人)一无所知。

基于此,你问那个人,“汽车是蓝色的概率是多少?”

这在我问过的人中引起了巨大的意见分歧!正确答案是什么,如果有的话?

4个回答

TL;DR:除非你认为人们在判断汽车颜色方面不合理,或者蓝色汽车非常稀有,否则在你的例子中人数众多意味着汽车是蓝色的概率基本上是 100%。

Matthew Drury 已经给出了正确的答案,但我只想通过一些数字示例来补充这一点,因为您选择了您的数字,这样您实际上就可以为各种不同的参数设置获得非常相似的答案。例如,假设正如您在其中一条评论中所说,人们正确判断汽车颜色的概率是 0.9。即: 还有

p(say it's blue|car is blue)=0.9=1p(say it isn't blue|car is blue)
p(say it isn't blue|car isn't blue)=0.9=1p(say it is blue|car isn't blue)

定义好之后,我们必须决定的剩下的事情是:汽车是蓝色的先验概率是多少?让我们选择一个非常低的概率来看看会发生什么,并说,即只有 0.1% 的汽车是蓝色的。那么汽车是蓝色的后验概率可以计算为:p(car is blue)=0.001

p(car is blue|answers)=p(answers|car is blue)p(car is blue)p(answers|car is blue)p(car is blue)+p(answers|car isn't blue)p(car isn't blue)=0.9900×0.1100×0.0010.9900×0.1100×0.001+0.1900×0.9100×0.999

如果您查看分母,很明显该总和中的第二项可以忽略不计,因为总和中各项的相对大小由的比率决定,即大约是事实上,如果您在计算机上进行此计算(注意避免数字下溢问题),您会得到等于 1 的答案(在机器精度范围内)。0.99000.19001058

先验概率在这里并不重要的原因是因为你有很多证据证明一种可能性(汽车是蓝色的)与另一种可能性。这可以通过似然比来量化,我们可以计算为:

p(answers|car is blue)p(answers|car isn't blue)=0.9900×0.11000.1900×0.910010763

因此,甚至在考虑先验概率之前,证据表明,一个选项已经比另一个选项更有可能,并且对于先验产生任何影响,蓝色汽车必须是不合理的,非常罕见的(如此罕见以至于我们期望在地球上找到 0 辆蓝色汽车)。

那么,如果我们改变人们对汽车颜色描述的准确程度呢?当然,我们可以把它推到极端,说他们只有 50% 的时间做对了,这比抛硬币好不了多少。在这种情况下,汽车是蓝色的后验概率简单地等于先验概率,因为人们的回答什么也没告诉我们。但可以肯定的是,人们至少做得比这好一点,即使我们说人们只有 51% 的时间是准确的,但似然比仍然计算得出,汽车的可能性大约是倍是蓝色的。1013

这都是您在示例中选择的相当大的数字的结果。如果有 9/10 的人说这辆车是蓝色的,那将是一个非常不同的故事,即使在一个阵营与另一个阵营的人数比例相同。因为统计证据不依赖于这个比率,而是依赖于对立派系之间的数值差异。事实上,在似然比(量化证据)中,说汽车不是蓝色的 100 人恰好抵消了 900 人中的 100 人说它是蓝色的,所以这就像你有 800 人都同意它是蓝色的。这显然是非常明确的证据。

(编辑:正如 Silverfish 指出的那样,我在这里所做的假设实际上暗示,每当一个人错误地描述了一辆非蓝色汽车时,他们会默认说它是蓝色的。这当然是不现实的,因为他们真的可以说任何颜色, 并且只会在某些时候说蓝色。但这对结论没有影响,因为人们将非蓝色汽车误认为蓝色汽车的可能性越小,当他们说它是蓝色的证据越强是。因此,如果有的话,上面给出的数字实际上只是亲蓝色证据的下限。)

正确答案取决于问题中未指定的信息,您必须做出更多假设才能得出一个明确的答案:

  • 汽车是蓝色的先验概率,即你认为汽车是蓝色的,因为你还没有问过任何人。
  • 有人告诉你这辆车是蓝色的但实际上它蓝色的概率,以及他们告诉你这辆车是蓝色的但实际上它不是蓝色的概率。
  • 当有人说它是蓝色时,汽车实际上是蓝色的概率,当有人说它是蓝色时,汽车不是蓝色的概率。

有了这些信息,我们可以用贝叶斯公式分解整个事情,得出汽车是蓝色的后验概率。我将专注于我们只问一个人的情况,但同样的推理可以应用于你问人的情况。1000

Ppost(car is blue)=P(car is bluesay is blue)P(say is blue)    +P(car is bluesay is not blue)P(say is not blue)

我们需要继续进一步分解,这就是先验的来源:P(say is blue)

P(say is blue)= P(say is bluecar is blue)Pprior(car is blue)+P(say is bluecar is not blue)Pprior(car is not blue)

因此,贝叶斯规则的两个应用可以帮助您实现目标。您需要根据您对特定情况的信息或通过做出一些合理的假设来确定未指定的参数。

您可以根据以下假设做出其他一些组合:

P(say is bluecar is blue)P(car is blue)=P(car is bluesay is blue)P(say is blue)

一开始,你什么都不知道。所以你必须对其中的三个做出一些合理的假设,然后从那里确定第四个。

有一个重要的假设是,你的 1000 条意见没有系统偏见。这是一个合理的假设,但在其他情况下可能很重要。

示例可能是:

  • 他们都有相似的色盲(例如人群中的遗传学),
  • 他们都在晚上看到了橙色钠灯下的汽车,
  • 他们都有一个共同的文化,其中蓝色是禁忌或与魔法相关的(无论他们是否将任何物体描述为蓝色或使用文化委婉语或其他任何东西,都会产生偏见),
  • 他们都被告知(或有一个共同的信念),如果他们以某种特定方式回答/不回答,他们就会发生好事/坏事.....

在这种情况下不太可能,但在其他情况下它是一个重要的隐含假设。它也不必那么极端 - 将您的问题转移到其他领域,这将是一个真正的因素。

您的答案可能会受到共同偏见影响的每个示例:

  • 询问一个又高又薄的玻璃杯是否比一个实际上相同的短胖玻璃杯容纳更多,但你的 1000 名受访者都是非常年幼的孩子(共同的误解)。
  • 询问 1000 个人在梯子下行走是否危险(共同文化信仰)
  • 询问 1000 名已婚人士是否爱他们的伴侣/是否有外遇,在他们相信他们的伴侣会知道他们答案的情况下。上下文可能是电视节目,或被问到时在场的合作伙伴等(关于后果的普遍看法)

不难想象一些结构相同的问题,其中 900:100 的回答是对信念和诚实或其他东西的衡量,并没有指向正确的答案。在这种情况下不太可能,但在其他情况下 - 是的。

你从不同的人那里得到不同答案的一个原因是这个问题可以用不同的方式来解释,而且这里的“概率”是什么意思还不清楚。理解这个问题的一种方法是使用贝叶斯规则来分配先验和推理,就像马修的回答一样。

在询问概率之前,您必须决定什么是随机建模,什么不是。未知但固定的数量应该被分配到先验,这并不是普遍接受的。这是一个与您类似的实验,突出了问题的问题:

假设 ,是独立同分布的伯努利随机变量,成功概率(均值)为了可解释性,让我们将视为掷硬币。假设您观察(充分统计)硬币公平的概率是多少?Xii=1,,1000p=0.5Xii=11000Xi=900

从常客的角度来看,这个问题要么是荒谬的,要么答案是“一个”。分配先验分布,在这种情况下,这个问题是有道理的。我的例子和问题之间的根本区别在于问题中的是未知的,而问题掩盖了这样一个事实,即实际随机性是一个(可能是随机抽样的)人是否回答汽车是蓝色的。汽车的颜色不是随机分配的,因此从常客的角度谈论它是蓝色的可能性是无趣的。pp