您了解 v 结构,但让我们正式回忆一下它们的含义。v 结构(应用于您的示例)编码的是:A:学生 IQ和C:测试难度是独立的,即,但它们依赖于 B:测试分数。即
I(A,C), i.e. P(A|C)=P(A)
D(A,C|B), i.e. P(A|C,B)≠P(A|C)
它们与现实世界的多元数据有何关系?
学生智商和考试难度是独立的,这一点很清楚。现在让我们假设您知道一个学生的考试成绩,即。我们还假设它非常高,例如最高等级。现在我问你以下问题:B
如果你知道考试难度非常高,你会不会认为学生应该有更高的概率非常聪明(更高的学生 IQ,)?现在有了,因为知道和已经改变了事件的概率。CAP(A|C,B)≠P(A|C)BCA
该数据集中的多元分布如何反映 v 结构?
您可以考虑一个解释这一点的玩具数据集...(为简单起见,我将使用状态为(高)、(低)和(中)的二进制变量,最后一个仅用于)+−=B
A C B
+ + =
+ - +
- + -
- - =
- - =
- + -
+ + -
+ + =
+ - +
+ - +
查看数据集。希望你看到。现在,如果您知道,那么知道并不能告诉您有关任何信息?I(A,C)B="="C="+"A
注意,回答上面的问题:你估计 * 使用数据集的真实概率,如果我们假设概率是直接从数据集估计的(最大似然,不需要担心这个,只是正式的),你会估计,因为所有(考试难)(中等分数)(聪明,即高智商)。P(A="+"| B="=",C="+")=1B="="C="+"A="+"