为什么 GLM 与具有转换变量的 LM 不同

机器算法验证 回归 广义线性模型 数据转换 线性模型
2022-01-19 14:12:11

正如本课程讲义(第 1 页)中所解释的,线性模型可以写成以下形式:

y=β1x1++βpxp+εi,

在哪里y是响应变量和 xi是个ith解释变量。

通常,为了满足测试假设,可以转换响应变量。例如,我们对每个应用 log 函数yi. 转换响应变量并不等同于进行 GLM。

GLM 可以写成以下形式(再次来自课程讲义(第 3 页)

g(u)=β1x1++βpxp+εi,

在哪里u只是另一个象征y正如我从课程讲义的第 2 页所了解的那样。g()称为链接函数。

我真的不明白 GLM 和 LM 与课程幻灯片中的转换变量之间的区别。你能帮我解决这个问题吗?

2个回答

我不确定这是否会为您提供完整的答案,但它可能有助于打破概念上的僵局。

您的帐户中似乎存在两个误解:

  1. 请记住,普通最小二乘 (OLS--'linear') 回归广义线性模型的一个特例。因此,当您说“[t] 转换响应变量不等于执行 GLM”时,这是不正确的。拟合线性模型或转换响应变量然后拟合线性模型都构成“进行 GLM”。

  2. 在 GLM 的标准公式中,您所说的“u"(通常由μ,但这只是一个偏好问题)是协变量空间中特定位置的条件响应分布的平均值(即,X)。因此,当你说“在哪里u只是另一个象征y",这也是不正确的。在 OLS 公式中,Y是一个随机变量和/或yi是一个已实现的价值Y用于观察/研究单元i. 那是,y(更一般地)表示data,而不是parameter

    (我并不是要强调错误,我只是怀疑这些可能会引起您的困惑。)

  3. 我没有看到你提到的广义线性模型的另一个方面。那就是我们指定一个响应分布。在 OLS 回归的情况下,响应分布是高斯(正态)分布,链接函数是恒等函数。例如,逻辑回归(这可能是人们在想到 GLM 时首先想到的),响应分布是伯努利(/二项式),链接函数是 logit。当使用转换来确保满足 OLS 的假设时,我们经常试图使条件响应分布成为可接受的正态分布。然而,没有这样的变换会使伯努利分布成为可接受的正态分布。

在进行线性回归之前转换响应是这样做的:

E(g(Y))β0+β1x1++βpxp

在哪里g是给定的函数,我们假设g(Y)有一个给定的分布(通常是正态的)。

广义线性模型正在这样做:

g(E(Y))β0+β1x1++βpxp

在哪里g和以前一样,我们假设Y有一个给定的分布(通常不是正态的)。