我对贝叶斯统计比较陌生,最近一直在使用 JAGS 在不同的数据集上构建分层贝叶斯模型。虽然我对结果非常满意(与标准 glm 模型相比),但我需要向非统计学家解释与标准统计模型的区别是什么。特别是,我想说明 HBM 为何以及何时比简单模型表现更好。
一个类比会很有用,尤其是说明一些关键要素的类比:
- 多层次的异质性
- 需要更多的计算来拟合模型
- 从相同数据中提取更多“信号”的能力
请注意,答案应该是对非统计人员有启发性的类比,而不是一个简单易学的例子。
我对贝叶斯统计比较陌生,最近一直在使用 JAGS 在不同的数据集上构建分层贝叶斯模型。虽然我对结果非常满意(与标准 glm 模型相比),但我需要向非统计学家解释与标准统计模型的区别是什么。特别是,我想说明 HBM 为何以及何时比简单模型表现更好。
一个类比会很有用,尤其是说明一些关键要素的类比:
请注意,答案应该是对非统计人员有启发性的类比,而不是一个简单易学的例子。
我想举例说明与癌症发病率相关的建模(如 Johnson 和 Albert 1999 中所述)。它将触及您感兴趣的第一和第三要素。
因此,问题在于预测各个城市的癌症发病率。假设我们有各个城市的人数数据和死于癌症的人数. 假设我们要估计癌症发病率. 有多种方法可以对它们进行建模,正如我们看到的那样,每种方法都存在问题。我们将看到层次贝叶斯建模如何克服一些问题。
1. 一种方法是单独进行估计,但我们会遇到数据稀疏问题,并且会低估低利率.
2. 管理稀疏数据问题的另一种方法是使用相同的对于所有城市并绑定参数,但这也是一个非常强的假设。
3. 所以能做的就是的在某些方面是相似的,但也有城市特定的变化。所以一个人可以以这样一种方式建模,所有是从一个共同的分布中得出的。说和
那么一个完整的联合分布将是在哪里. 我们需要推断从数据。如果它被限制在一个常数,那么信息将不会在两者之间流动的,他们将有条件地独立。但通过治疗作为未知数,我们允许数据较少的城市从数据较多的城市借用统计强度。
主要思想是更多的贝叶斯和在先验上设置先验,以对超参数中的不确定性进行建模。这允许影响之间的流动的在这个例子中。
当你生病时,你会观察症状,但你想要的是诊断。如果您不是医生,我想您可以简单地找到最符合您症状的诊断。但是Ph HBM会做的是查看您的症状,它们的相对意义,它们如何适应/关联您以前的不同健康问题,您的家人,当前的常见疾病和环境条件,您的弱点,您的力量......然后他将利用其知识将这些东西结合起来,以更新他对您的健康状况的猜测,并为您提供更有可能的诊断。
我确信这个类比很快就会达到它的极限,但我认为它可以很好地直观地了解人们对 HBM 的期望,是吗?(我没有找到更好的)