广义线性模型和身份链接,它有什么好处?

机器算法验证 回归 广义线性模型 造型 链接功能
2022-03-15 07:45:50

我发现一篇论文说使用了具有恒等链接函数的广义线性模型。他们标准化了一些连续的自变量以及连续的因变量,然后运行带有恒等链接的 GLM 来分析 IV 对 DV 的主要影响以及 IV 之间的相互作用。

我的问题是:对标准化变量使用带有恒等链接函数的 GLM 与运行简单的线性回归不同吗?他们为什么选择使用 GLM?

2个回答

对于条件正态分布,结果确实符合正态线性模型。

R中的示例

# Normal linear model fitted by OLS
summary(lm(Sepal.Length ~ Sepal.Width, data = iris))

# Output
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6.5262     0.4789   13.63   <2e-16 ***
Sepal.Width  -0.2234     0.1551   -1.44    0.152    

# GLM with conditional normal response and identity link
summary(glm(Sepal.Length ~ Sepal.Width, data = iris))

# Output
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6.5262     0.4789   13.63   <2e-16 ***
Sepal.Width  -0.2234     0.1551   -1.44    0.152

对于 GLM 家族中的所有其他分布(例如 Gamma、Poisson 或 Bernoulli),结果会有所不同,例如通过考虑分布家族隐含的方差异质性以及不同的数值技术(迭代地重新加权最小二乘代替单次最小二乘迭代)。

例如,对于 Gamma:

summary(glm(Sepal.Length ~ Sepal.Width, data = iris, 
+             family = Gamma(link = "identity")))

# Output
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6.5656     0.4792   13.70   <2e-16 ***
Sepal.Width  -0.2362     0.1544   -1.53    0.128    

这是具有条件 Gamma 分布的响应的加法模型,正确考虑了 Gamma 假设引起的方差的非均匀性。

虽然在某些情况下使用具有非正态条件响应的恒等链接可能会导致数值不稳定,但这是一个巧妙的技巧,例如为混杂因素调整两个比例的差异:为此,您将运行带有恒等链路的逻辑 GLM。

没有纸是不可能知道的。可能很简单,他们使用 GLM 函数编写了一组标准脚本,并使用了不同的链接,但在这种情况下,他们只使用了身份。主要好处是通过不为 OLS 编写特定代码并为 GLM 使用通用代码,您的代码库更小,在更通用的代码中尝试不同的设置很容易,并且错误的可能性也降低了。

这有时会发生在我身上。我有运行 ARIMA 的脚本,也有运行 ARIMA(0,0,0) 进行 OLS 回归的脚本。这样您的脚本更少,出现错误的机会也更少