这是使用贝叶斯定理不断更新概率的正确方法吗?

机器算法验证 可能性 贝叶斯
2022-03-11 20:15:02

假设我试图找出某人最喜欢的冰淇淋口味是香草的概率。

我知道这个人也喜欢恐怖电影。

我想找出这个人最喜欢的冰淇淋是香草的概率,因为他们喜欢恐怖电影。

我知道以下几点:

  1. 5%的人选择香草作为他们最喜欢的冰淇淋口味。(这是我的P(A)
  2. 10%最喜欢香草冰淇淋的人也喜欢恐怖电影。(这是我的P(B|A)
  3. 1%最喜欢的不是香草冰淇淋的人也喜欢恐怖电影(这是我的P(B|¬A)

所以,我这样计算: 我发现(四舍五入到最接近的千分之一)。恐怖电影迷最喜欢的冰淇淋口味

P(A|B)=0.05×0.1(0.05×0.1)+(0.01×(10.05))
P(A|B)=0.344834.48%

但后来我得知此人在过去 30 天内看过一部恐怖电影。这是我所知道的:

  1. 34.48%是香草是人们最喜欢的冰淇淋口味的更新后验概率——下一个问题中的P(A)
  2. 20%最喜欢香草冰淇淋的人在过去 30 天内看过恐怖电影。
  3. 5%不喜欢香草冰淇淋的人在过去 30 天内看过恐怖电影。

这给出: 舍入。

0.3448×0.2(0.3448×0.2)+(0.05×(10.3448))=0.6779

所以现在我相信恐怖电影迷喜欢冰淇淋的几率67.79%

但是等等,还有一件事。我还了解到这个人拥有一只猫。

这是我所知道的:

  1. 67.79%是香草是人们最喜欢的冰淇淋口味的更新后验概率——下一个问题中P(A)
  2. 40%最爱香草冰淇淋的人也养猫
  3. 10%不喜欢香草冰淇淋的人也养猫

这给出: 舍入。

0.6779×0.4(0.6779×0.4)+(0.1×(10.6779))=0.8938

我的问题基本上归结为:我是否使用贝叶斯定理正确更新了概率?我的方法还有什么问题吗?

1个回答

这是正确的。这种类型的顺序更新仅适用于您顺序接收的信息是独立的(例如随机变量的独立同分布观察)。如果每个观察都不是独立的,就像在这种情况下,你需要考虑联合概率分布。正确的更新方法是回到先前,找出某人喜欢恐怖电影、在过去 30 天内看过恐怖电影以及拥有一只猫的联合概率,假设他们选择或不选择香草作为他们的最喜欢的冰淇淋口味,然后一步更新。

当您的数据不独立时,像这样按顺序更新将迅速使您的后验概率大大高于或低于应有的水平。