在 R 中,估计的参数glm()
及其标准误差都在链接尺度上提供,正如最近有人在这里向我澄清的那样。以相同的比例提供参数及其标准误差是有意义的,但是为什么不以数据的原始比例显示它们呢?我想大多数人都对原始规模的估计感兴趣,并且大部分时间都对它们进行反向转换。虽然对这个问题的评论解决了如何对参数估计及其标准误差进行反向转换的问题,但我仍然很好奇为什么这些估计是由summary()
链接尺度上的函数而不是原始尺度上的函数提供的。
为什么 glm() 提供链接规模的估计和标准误差?
机器算法验证
r
广义线性模型
标准错误
2022-04-04 02:17:36
1个回答
很难确定,但链接规模有用的原因有几个。
- 使用标准误差作为不确定性的总结通常在链接尺度上更可靠,其中参数的域是无界的,并且假设似然面近似二次(参数估计的采样分布近似正态)是更可能是合理的。例如,假设您有一个对数链接模型,估计值(在链接尺度上)为 1.0,标准误差为 3.0。在链接尺度上,置信区间约为。如果您进行反向变换,对参数取幂并将标准误差乘以取幂参数(如this answer),然后尝试构造对称CI,您会得到,其中包括负值...如果您确实要进行反变换,则对置信区间进行反变换更有意义,即 .
- 可能更重要的是,对于非常常见的 logit 链接,基本上不可能明智地将参数一直反向转换到数据规模(即,从 logit/log-odds-ratio 到概率)。通常将参数取幂以从对数优势比移动到优势比标度,但是如果不指定基线值,您就不能从优势比回到概率。也就是说,您通常可以说“与对照与治疗相关的优势比为 XXX”,但从对照到治疗的概率变化将取决于其他协变量(例如,女性和男性的优势比可能相同而概率的变化是不同的,因为女性和男性的基线风险不同)。
可能最近的原因是由于上面列出的问题,大多数做大量统计建模的人已经习惯于解释链接尺度上的参数;大多数流行病学家和生物统计学家必须花时间学习优势比和对数优势比,并且有很多关于它们的解释的论文。 不管是好是坏,R 是由善于解释链接尺度参数的人编写的。许多下游软件包(例如broom )具有为您计算参数和 CI 的选项(将它们放在 log 链接的数据(计数)尺度上;logit 链接的优势比尺度;以及 cloglog 链接的危险比尺度) .
其它你可能感兴趣的问题