绿色便便,绿叶蔬菜和疾病的可能性,我怎样才能将这个推理形式化?

机器算法验证 可能性 贝叶斯
2022-04-08 09:12:26

在做出判断之前阅读所有内容,这是一个严肃的概率问题,不是开玩笑。

今天,当我醒来去做我平常的事情时,我的便便是绿色的。我很担心,也很紧张,以为我可能得了重病。

在数学上,我们可以说,在我看到我的便便是绿色后,我更新了我的概率

P(disease|green poop,everything else I did yesterday)=high

所以继续我们的故事,我非常担心,然后在互联网上搜索“导致绿色便便的原因”。然后我了解到吃绿叶蔬菜会导致绿色便便!昨天我确实吃了绿叶蔬菜。所以现在,根据这些信息,我的新评估是:

P(disease|green poop,everything else I did yesterday)=low

我在哪里使用P这里代表我更新的概率度量。但这是我不知所措的诀窍,所以我的问题是:我如何在数学上形式化我的上述推理?毕竟,我已经掌握了所有证据,我已经知道我吃过绿叶蔬菜。我不知道的是,它们可能是对绿色便便的一种解释。你能在数学上准确地确定我做了什么类型的更新来从高概率变为低概率吗?

4个回答

我使用以下二进制变量:

  • 便便是绿色的:G
  • 我生病了:D
  • 吃绿叶蔬菜:L

首先,让我们看看如何到达P(D=1|G=1)=0.8. 虽然你“知道”你吃过绿叶蔬菜并且它会导致绿色便便,但当你首先想到它时,你只将疾病视为潜在原因。也就是说,你脑子里只有概率图D -> G,意思是P(D,G)=P(D)P(G|D). 例如,P(D=1)=0.1(除了大便,你感觉很好),和P(G=1|D=1)也很低(您对导致绿色便便的疾病知之甚少),因此P(D=1,G=1)相当低。那你怎么有P(D=1|G=1)=0.8? 替代方案P(D=0|G=1)甚至更低:是的,P(D=0)=0.9很高,在没有生病的情况下出现绿色便便是极不可能的(因为大多数日子,我很好,但我的便便不是绿色的)!您可以通过修复实际概率来检查。

现在,当您在互联网上了解或被提醒有关绿叶蔬菜时,您会更新图表并添加潜在原因“绿叶蔬菜”。正式地,P(D,G,L)=P(L)P(D)P(G|D,L). 现在,因为P(L)=1(我确定我昨天吃了蔬菜)和P(G=1|D=d,L=1)对于任何d很高:这就是我在互联网上被“提醒”的内容:生病与否,绿叶蔬菜会导致绿色便便。

根据贝叶斯规则,P(D|G,L)P(D)P(L)P(G|D,L)通过确定具体的概率,你会发现疾病的概率很低,这要归功于高P(G=1|D=d,L=1).

这是一个解释的例子:在 V 形图中,当您固定效果 (G) 的值时,两个原因现在是相关的(D 和 L 在给定G 的情况下是相关的)。观察到其中一个原因存在会降低另一个原因的概率(在我们的例子中,急剧下降),反之亦然:如果一个原因不存在,另一个原因的概率会上升(在我们的例子中,你没有不要吃绿叶蔬菜,所以你仍然认为你很有可能生病了)。

我试图找到一个很好的参考来解释,但没有。珍珠的汽车例子似乎经常被给出,例如这里

将此与本的回答联系起来

是的,我确实通过在图中添加一条边来更改模型,这不是问题的完全“贝叶斯”形式化。我就像一个逐步建立贝叶斯模型的科学家一样推理。

您想为自己的思维过程建模:您知道绿叶蔬菜是您过去常常忽略的相关原因,因此您想将变量 I 放在图中。感谢 Ben 的回答,您意识到原因的概率图可以以非常灵活的方式编码,其中每个可能的原因都不会对您尝试绘制的推理产生巨大影响,通过这些“门控”变量,例如我.我认为你实际上是在寻找本的答案。

然而,我想指出,尽管 Ben 的完全贝叶斯模型可能(可能只是,见下一段)是“思维过程”的一个很好的(尽管是巨大的)模型,但它并不反映模型的科学阐述。假设 I 是二进制的,如果 L 导致 G,则为 1,否则为 0。贝叶斯科学家需要先于 I,并且在这样做时,应该考虑L 是否导致 G。但是正如您所说,您没有了解到I=1在网上; 你只是被提醒了。因此,如果您考虑过这一点,您就会将一个非常可能的 I 作为先验。在这种情况下,您会看到没有进行更新,您只需恢复我为第二个模型提供的分析。相反,如果你不考虑原因,你就会建立我提出的第一个模型。换句话说,如果贝叶斯科学家对他的模型不完全满意,他需要建立另一个模型,并且他的方法不是“完全贝叶斯”(在术语的极端、正式和教条意义上)。

最重要的是,我仍然对 Ben 的回答感到困惑,因为他没有指定优先于 I。如果我们对思维过程进行建模,我们可以看到个人的信念在他的一生中不断更新。为了让本的答案完全完整且令人信服,我们需要“先验”概率(在看到互联网上的信息之前)P(I=1)要低。为什么会这样?我认为这个人在他的生活中没有接触过证据。有问题。

因此,我更倾向于想象我们在头脑中使用非常部分的图进行近似贝叶斯推理,这些图是通过以不完美的方式提取“完整知识图”的片段来“实例化”的。

我很想听听 Ben 对此的看法。可能有大量资源在讨论这个问题(也许在“客观与主观”或“贝叶斯与常客”的辩论中?),但我不是专家。

在我看来,您正在研究贝叶斯定理,特别是先验概率。

您的数据(greenpoop,etc) 在检查互联网之前和之后是相同的。但是,最初,您的先验概率要么是中性的,要么是有利于疾病的,因为绿色便便是奇怪的。在检查了互联网之后,您之前的转变倾向于非疾病,并且更新了后向P(disease|greenpoop,etc)=low. 从数学上讲,我想您可以使用 beta 分布来模拟您先前的信念,或多或少地强烈支持或反对这种疾病。

这种问题可以使用贝叶斯分析来处理,但需要一点小心。这里的棘手之处在于条件事件“吃了绿叶蔬菜”和另一个条件事件“表明吃绿叶蔬菜导致绿色便便的信息”之间存在区别。你已经知道你在这两种情况下都吃了绿叶蔬菜,所以调节事件不会改变你的概率。相反,正是您从互联网搜索中获得的额外信息告诉您绿叶蔬菜会导致绿色便便,因此会导致您降低推断的患病概率。

为了简化这个分析,我假设前一天唯一相关的调节事件是你吃了绿叶蔬菜(即事件“吃了绿叶蔬菜”将等同于“我昨天所做的一切)。这消除了显式调节那天剩下的事情。我将使用以下事件:

DDisease,GGreen poop,LAte leafy greens,IInformation showing that L causes G.

你所描述的情况是P(D|GL)很高但是P(D|GLI)低(即,添加新信息会降低您患疾病的概率)。有很多合理的方法可以引导你达到这个结果,但一般结构看起来像下面的 DAG。疾病会导致绿色便便,但也可能是由食用绿叶蔬菜引起的。(后者的联合路径取决于这样一个事实,即从绿叶蔬菜到绿色便便的因果路径是未知的,除非你获得了相关信息。)

                                                            在此处输入图像描述

在这种情况下,获得与食用绿叶蔬菜和绿色便便有关的信息的效果是它在 DAG 底部“打开了通路”,从而提供了另一个理由相信绿色便便可能在没有绿色便便的情况下发生。疾病。这会导致您相应地降低疾病的条件概率。通过为各种感兴趣的事件提供一些适当的概率值,可以进一步形式化这种分析,但我不会追求那种详细程度。希望这个结构性讨论可以帮助您理解您正在做出的推论的性质。可以说,您从获得的附加条件信息中得出的推断疾病概率的降低是一个明智的结论。

statisticsmathematics

我们可以在数学上表达概率(就像你做了两次一样),但它们不是真实的概率,而是根据某些模型的概率。

因此,概率表达式具有失败的“概率”。多少……这取决于模型的质量。

如果您的模型被认为是好的(在数学上没有很好地表达),那么与模型内发生的随机误差/变化相比,模型偏差对计算与现实之间的差异产生影响的影响可以忽略不计模型,那么我们可以认为模型的不准确性可以忽略不计。

在您的示例中,我们可以说您的第一个模型不是很准确,这就是为什么它的结果与更准确的第二个模型如此不同的原因。没有矛盾。

从模型中获得的概率,如 p 值或后验密度,不是真实概率,而只是真实情况的反映。这些反射可以在不同程度上失真。这种扭曲几乎从来都不是(数学)考虑/模型的主题。