什么是一个很好的类比来说明分层贝叶斯模型的优势?

机器算法验证 贝叶斯 分层贝叶斯
2022-03-29 01:29:26

我对贝叶斯统计比较陌生,最近一直在使用 JAGS 在不同的数据集上构建分层贝叶斯模型。虽然我对结果非常满意(与标准 glm 模型相比),但我需要向非统计学家解释与标准统计模型的区别是什么。特别是,我想说明 HBM 为何以及何时比简单模型表现更好。

一个类比会很有用,尤其是说明一些关键要素的类比:

  • 多层次的异质性
  • 需要更多的计算来拟合模型
  • 从相同数据中提取更多“信号”的能力

请注意,答案应该是对非统计人员有启发性的类比,而不是一个简单易学的例子。

2个回答

我想举例说明与癌症发病率相关的建模(如 Johnson 和 Albert 1999 中所述)。它将触及您感兴趣的第一和第三要素。
因此,问题在于预测各个城市的癌症发病率。假设我们有各个城市的人数数据Ni和死于癌症的人数xi. 假设我们要估计癌症发病率θi. 有多种方法可以对它们进行建模,正如我们看到的那样,每种方法都存在问题。我们将看到层次贝叶斯建模如何克服一些问题。
1. 一种方法是单独进行估计,但我们会遇到数据稀疏问题,并且会低估低利率Ni.
2. 管理稀疏数据问题的另一种方法是使用相同的θi对于所有城市并绑定参数,但这也是一个非常强的假设。
3. 所以能做的就是θi的在某些方面是相似的,但也有城市特定的变化。所以一个人可以以这样一种方式建模,所有θi是从一个共同的分布中得出的。xiBin(Ni,θi)θiBeta(a,b)
那么一个完整的联合分布将是p(D,θ,η|N)=p(η)i=1NBin(xi|Ni,θi)Beta(θi|η)在哪里η=(a,b). 我们需要推断η从数据。如果它被限制在一个常数,那么信息将不会在两者之间流动θi的,他们将有条件地独立。但通过治疗η作为未知数,我们允许数据较少的城市从数据较多的城市借用统计强度。
主要思想是更多的贝叶斯和在先验上设置先验,以对超参数中的不确定性进行建模。这允许影响之间的流动θi的在这个例子中。

当你生病时,你会观察症状,但你想要的是诊断。如果您不是医生,我想您可以简单地找到最符合您症状的诊断。但是Ph HBM会做的是查看您的症状,它们的相对意义,它们如何适应/关联您以前的不同健康问题,您的家人,当前的常见疾病和环境条件,您的弱点,您的力量......然后他将利用其知识将这些东西结合起来,以更新他对您的健康状况的猜测,并为您提供更有可能的诊断。

我确信这个类比很快就会达到它的极限,但我认为它可以很好地直观地了解人们对 HBM 的期望,是吗?(我没有找到更好的)