计算 GLM 响应尺度上的模型平均预测,这是“正确的”,为什么?
- 在链接尺度上计算模型平均预测,然后反变换到响应尺度,或
- 将预测反变换为响应尺度,然后计算模型平均值
如果模型是 GLM,则预测接近但不相等。不同的 R 包为两者提供了选项(具有不同的默认值)。几位同事大声争辩说#1是错误的,因为“每个人都做#2”。我的直觉说#1是“正确的”,因为它使所有线性数学保持线性(#2对不在线性范围内的事物进行平均)。一个简单的模拟发现 #2 的 MSE 比 #1 非常(非常!)略小。如果#2是正确的,原因是什么?而且,如果#2 是正确的,为什么我的理由(保持线性数学线性)推理不佳?
编辑 1:计算 GLM 中另一个因素水平的边际均值与我上面提出的问题类似。Russell Lenth 使用#1(在 emmeans 包中)的“时间”(他的话)计算 GLM 模型的边际均值,他的论点与我的直觉相似。
编辑 2:我使用模型平均来指代模型选择的替代方案,其中预测(或系数)被估计为所有或“最佳”嵌套模型子集的加权平均值(请参阅下面的参考资料和 R 包) .
给定个嵌套模型,其中是模型的线性预测(在链接空间中),而是模型的权重,即使用上述 #1 的模型平均预测(链接上的平均值)尺度然后反变换到响应尺度)是:
并且使用上面的#2的模型平均预测(对所有个预测进行反向变换,然后在响应尺度上进行平均)是:
模型平均的一些贝叶斯和频率方法是:
Hoeting, JA, Madigan, D., Raftery, AE 和 Volinsky, CT, 1999。贝叶斯模型平均:教程。统计科学,第 382-401 页。
Burnham, KP 和 Anderson, DR, 2003。模型选择和多模型推理:实用的信息论方法。施普林格科学与商业媒体。
Hansen, BE, 2007。最小二乘模型平均。计量经济学,75(4),pp.1175-1189。
Claeskens, G. 和 Hjort, NL, 2008。模型选择和模型平均。剑桥图书。
R 包包括BMA、MuMIn、BAS和AICcmodavg。(注意:这不是关于更普遍的模型平均智慧的问题。)