在 GLM 回归中,我一直被告知将分类/有序/虚拟变量的参考水平设置为暴露最多的水平(数据最多的水平),因为这在某种程度上使模型更加稳定。这背后是否有任何统计原因,或者只是没有统计原因的历史实践?
我可以理解,人们想要模型中最有可能正确的“基本水平”(参考水平),但如果您不确定其他水平,那么它们肯定不应该首先包含在回归中?
在 GLM 回归中,我一直被告知将分类/有序/虚拟变量的参考水平设置为暴露最多的水平(数据最多的水平),因为这在某种程度上使模型更加稳定。这背后是否有任何统计原因,或者只是没有统计原因的历史实践?
我可以理解,人们想要模型中最有可能正确的“基本水平”(参考水平),但如果您不确定其他水平,那么它们肯定不应该首先包含在回归中?
我大多会选择在应用上下文中给出意义的参考级别,即在应用程序中作为参考实际上很有趣的参考级别。因此,在有几种处理和一个对照的实验中,我会选择对照作为参考水平,在有许多产品的营销环境中,我会选择市场领导者作为参考(或者如果我是感兴趣的一方,我自己的产品.)
但是,如果某些级别的观测值很少,使用这样的级别作为参考将导致所有估计的对比有很大的标准偏差,这是解释的困难。因此,必须做出一些妥协。
但是你被告知:
因为这以某种方式使模型更稳定
不是真的。无论您选择哪个级别作为参考,被估计的模型都是相同的,并且将是稳定的或不稳定的。参考水平的选择仅有助于解释,而不是数字问题。无论您最感兴趣的是什么对比,都可以在拟合之后计算出来,如果我们可以直接从标准输出中读取它就很方便了。
使用治疗对比/治疗编码时,所有估计的参数都是真正的对比比较水平到参考水平。