在 Gelman 的贝叶斯数据分析的第 146 页,Gelman 讨论了将贝叶斯 p 值作为检查模型拟合的一种方法。这个想法是将观察到的数据 ( )可能由模型生成的数据进行比较。
他将贝叶斯 p 值定义为
我不太明白为什么让测试统计量成为参数的函数是有意义的。实际上,如果目标是“将观察到的数据与模型可能生成的数据进行比较”,那么不应该严格在和之间进行比较吗?
例如,在同一页上,Gelman 提供了一个检查正常模型拟合的示例。检验统计量为:
其中是正常模型的平均值。此检验统计量旨在忽略模型拟合的极端尾部,超出 6 阶和 61 阶统计量。
为什么我们不使用以下测试统计量,而纯粹依赖数据?