图模型中的 v 结构如何反映现实世界的数据?

机器算法验证 图形模型 贝叶斯网络
2022-04-10 01:11:08

我了解 d 分离以及图形模型中的 v 结构如何工作。我不明白的是它们与现实世界的多元数据有何关系。通过查看数据,我看不出如何将 v 结构与其他结点分开。

举个例子 在此处输入图像描述

A:Studnet IQ,B:考试成绩,C:考试难度。

学生的智商不能影响考试难度,反之亦然。但是一旦知道了测试结果,学习其中之一就可以让我们对另一个做出有根据的猜测。

假设我获得了一个包含学生智商、测试结果和一些测试难度度量的数据集。该数据集中的多元分布如何反映 v 结构?

根据我自己的理解,我想生成两个数据集(例如使用 R' MASS 包和 mvrnorm),一个适合 v 结构模型,另一个是从 C 到 B 的箭头指向另一个方向。

相关问题: 了解因果贝叶斯网络中的 d 分离理论

1个回答

您了解 v 结构,但让我们正式回忆一下它们的含义。v 结构(应用于您的示例)编码的是:A:学生 IQC:测试难度是独立的,即,但它们依赖于 B:测试分数

I(A,C), i.e. P(A|C)=P(A)
D(A,C|B), i.e. P(A|C,B)P(A|C)

它们与现实世界的多元数据有何关系?

学生智商考试难度是独立的,这一点很清楚。现在让我们假设您知道一个学生的考试成绩,即我们还假设它非常高,例如最高等级。现在我问你以下问题:B

如果你知道考试难度非常高,你会不会认为学生应该有更高的概率非常聪明(更高的学生 IQ)?现在有了,因为知道已经改变了事件的概率。CAP(A|C,B)P(A|C)BCA

该数据集中的多元分布如何反映 v 结构?

您可以考虑一个解释这一点的玩具数据集...(为简单起见,我将使用状态为(高)、(低)和(中)的二进制变量,最后一个仅用于+=B

A C B
+ + =  
+ - + 
- + - 
- - =
- - =
- + -
+ + -
+ + =
+ - +
+ - +

查看数据集。希望你看到现在,如果您知道,那么知道并不能告诉您有关任何信息?I(A,C)B="="C="+"A


注意,回答上面的问题:你估计 * 使用数据集的真实概率,如果我们假设概率是直接从数据集估计的(最大似然,不需要担心这个,只是正式的),你会估计,因为所有(考试难)(中等分数)(聪明,即高智商)。P(A="+"| B="=",C="+")=1B="="C="+"A="+"