GLM中链接功能的基本问题

机器算法验证 广义线性模型 链接功能
2022-04-16 09:19:36

我是一个 stats & R 初学者,正在尝试了解 GLM。我对链接功能有一个非常基本的问题,如下所示

如果我理解正确,则响应变量 Y 的平均值通过链接函数 g(.) 映射到 eta

我的问题是,为什么是平均值?是不是我们在计算一个单一的值,即 Yi 的平均值?为什么不使用易的自己呢?与上述相关的一个问题是,如果我们考虑线性回归(这是 GLM 的一个特殊情况,链接 = 身份),响应变量不是均值(Yi),而是 Yi。但是根据 GLM 理论,我们应该使用 mean(yi) 进行链接函数映射。

抱歉,如果问题非常基本,请提前致谢。

我已经阅读了许多启发性的帖子,例如 链接功能的含义(GLM)

logit 和 probit 模型之间的区别

但我找不到答案,无疑是我的局限性。

1个回答

人们使用的所有基本回归类型模型都是平均值。在 OLS 回归中,假设响应条件正常,您的预测值条件均值(参见此处)。因此,在更广泛的 GLiM 上下文中,响应分布为像Bernoulli之类的其他东西,我们还希望预测均值。 y^i

抛开广义线性模型,一个更普遍的问题是为什么我们可能想要预测均值。首先,均值是期望值此外,对于指数族的分布(这意味着它们适用于 GLiM),均值是分布的参数之一。如果您知道分布是某事或其他,并且您知道平均值,那么您基本上知道所知道的一切,或者至少知道其中的大部分。(某些分布具有您仍想估计的附加参数,例如,对于您还想知道方差的正态分布。)

但是,您不必想知道平均值。您可能想知道某个分位数的值,例如第 37 个百分位数。您可以使用分位数回归对其进行建模。序数逻辑回归和 Cox 比例风险模型不采用分布形式,也不直接估计条件均值。