R中泊松数据的日志与平方根链接

机器算法验证 回归 广义线性模型 泊松分布 链接功能
2022-04-06 22:39:31

我目前正在使用 R 中的 GLM 对随着时间的推移艾滋病死亡进行建模。我知道泊松数据的链接函数有两种可能的选项,对数和平方根。

我知道平方根可以消除可变性问题,而日志需要拉直曲线。但是,我如何才能真正测试哪个链接更适合数据?

2个回答

您将数据转换的效果与 GLM 中链接功能的使用混淆了。

的形式为,它将“拉直关系” 同样,如果您取响应的平方根,如果方差与均值成正比(就像泊松一样,它等于均值),它会使方差几乎恒定。E(Y|x)exp(a+bx)

但是,在 GLM 中,链接函数用于转换数据。

GLM 本身考虑了泊松方差随均值增加的事实;你不需要对此做任何事情(只要泊松假设合适)。

唯一剩下的就是解释预测变量和响应之间的关系。链接函数确实指定了响应的条件均值与预测变量之间的关系形式。

sqrt 链接主要用于与使用平方根变换以应用最小二乘回归的旧分析进行比较。通过使用平方根链接,您可以拟合具有相同功能形式但具有参数的完整 ML 估计的模型。

如果您考虑使用日志,因为它使关系线性化,那绝对是您应该使用的链接。(通常,日志链接也更容易解释。)

如果您真的想同时满足这两个链接功能并在它们之间进行选择,您可以比较 AIC;或者您可以比较偏差(当然还有其他选择,但两者都已在摘要输出中提供,并且它们确实衡量“适合”;无论您查看哪个,它们都应该得出相同的结论)。然而,除非有一些明确的迹象表明日志链接不充分或有其他原因来接受平方根链接,否则我会简单地做日志链接。

请注意,如果您确实使用数据在链接函数之间进行选择,则从相同数据点估计的系数的后续假设检验将(除其他外)不再具有其名义属性(标准误差将太小,置信区间太窄, p 值并不意味着同样的事情......)

(顺便说一句,这些并不是 R 中泊松的唯一两个链接功能选项,因为还有身份链接......如果你转向准泊松拟合,这还不包括你可以做什么)


警告:如果您要随时间对变量进行建模,则应记住(a)您的计数可能存在时间依赖性,这会使 GLM 的独立性假设无效(例如,您的标准错误很容易是错的); (b)虚假回归的概念可以像普通回归一样容易地应用于泊松回归(因此您的参数估计也很容易出错/误导)。

我怀疑您的系列将是固定的,因此这可能对您的结论构成严重威胁——但即使对于固定系列,虚假回归也可能是一个问题(这一点未被广泛理解;我在此提供了参考答案哪个答案还通过一个简单的抛硬币示例说明了在非平稳情况下具有相关性的现象)。

如果您使用为响应指定的泊松分布拟合 GLiM,则不必尝试稳定响应的条件方差。这会自动为您处理好。Poisson GLiM 不像常规线性(高斯)回归模型那样假设恒定方差。

链接函数的作用是改变原始数据空间中回归线的形状,从而改变系数的解释。如果您担心形状/曲率是否合适,您可以随时使用样条线。因此,您可能希望根据系数的可解释性选择要使用的链接。在我看来,这通常有利于日志链接。

如果您只想使用没有样条函数的协变量,并且想确定哪种形状更适合您的数据,则可以使用交叉验证并检查样本外预测误差。

虽然是在二项式 GLiM(不是 Poisson)的上下文中编写的,但您可能仍然有兴趣在这里阅读我的答案:Difference between logit and probit models