在通常提到的筛查可能性为 80%、先验为 10%、假阳性率为 50% 的乳腺钼靶筛查问题或其变体中,很容易解释阳性筛查表明癌症的条件后验概率目前仅占 15%。这最容易通过计数来显示,n = 1000,真正的癌症病例 = 100,检测到的癌症 = 80,假阳性 = 450。那么阳性筛查表明癌症存在的概率是真阳性 /(真阳性 +误报)或 80 / (100 + 450) = 0.145 或 15%。
直觉是真阳性取决于真阳性和假阳性的总和,因为真阳性和假阳性的总和构成所有结果的子集。这是因为假阴性和真阴性被排除在计算之外,因此条件集是一个子集。
如果我们将问题转移到具有二项式似然和 beta 先验的连续情况,则归一化常数变为积分,对于真正的正项(p = 比例)
和假阳性的类似术语。
然而,不清楚的是,如何在连续情况下重申子集的概念,我找不到这样做的人。相反,人们会发现这样的语言:1)这个积分给出了常数来进行计算,以便在 [0, 1] 区间上定义一个概率分布,或者 2)调用比例性并且不需要积分的值找到后验,尤其是使用 MCMC,或者 3) 积分是证据的概率。最后一种解释似乎更接近子集的概念,但并没有清晰明确的联系。
我正在写一个对贝叶斯定理的直观介绍,并希望继续直观地理解定义后验的条件概率的子集。所以我需要语言来解释这个积分如何只是离散数字情况下子集的连续重述。
有什么建议么?
