GLM 家族代表响应变量或残差的分布?

机器算法验证 广义线性模型 残差 假设
2022-02-09 13:54:36

我一直在与几个实验室成员讨论这个问题,我们已经找到了几个来源,但仍然没有答案:

当我们说 GLM 有一个泊松族时,我们说的是残差分布还是响应变量?

争论点

  1. 阅读这篇文章,它指出 GLM 的假设是观察的统计独立性,链接和方差函数的正确规范(这让我想到残差,而不是响应变量),响应变量的正确测量尺度并且缺乏单点的不当影响

  2. 这个问题有两个答案,每个答案都有两分,第一个出现的是关于残差的,第二个是关于响应变量的,它是什么?

  3. 在这篇博文中,当谈到假设时,他们说“残差的分布可以是其他的,例如二项式

  4. 在本章的开头他们说误差的结构必须是泊松,但残差肯定有正负值,那怎么可能是泊松呢?

  5. 这个问题经常在诸如此类的问题中被引用以使它们重复,但没有公认的答案

  6. 这个问题的答案是关于响应而不是残差

  7. 在宾夕法尼亚大学的课程描述中,他们谈论的是假设中的响应变量,而不是残差

2个回答

glm 模型的family参数确定响应的条件分布的分布族,而不是残差的分布族(模型除外)。

这样看:对于通常的线性回归,我们可以将模型写为 这意味着响应具有正态分布(具有恒定方差),但每个的期望不同。因此,响应的条件分布是正态分布(但每个的分布不同)。编写此模型的另一种方法是 其中每个分布为

YiNormal(β0+xiTβ,σ2).
Yiii
Yi=β0+xiTβ+ϵi
ϵiNormal(0,σ2)

因此,对于正态分布族,两种描述都是正确的(正确解释时)。这是因为对于正常线性模型,我们在系统部分)和扰动部分)的模型中有一个清晰的分离,它们只是简单地相加。但是对于其他家庭功能,这种分离是不可能的甚至没有明确定义剩余的含义(因此,“剩余”有许多不同的定义)。β0+xiTβϵi

因此,对于所有其他系列,我们使用上面第一个显示的方程样式的定义。即响应的条件分布。所以,不,泊松回归中的残差(无论定义什么)没有泊松分布。

除了 Kjetil 的出色回答之外,我想添加一些具体示例来帮助阐明条件分布的含义,这可能是一个难以捉摸的概念。

假设您从湖中随机抽取了 100 条鱼样本,并且您有兴趣了解鱼的年龄如何影响几个结果变量:

  1. 鱼重(Weight);
  2. 鱼的长度是否超过30cm;
  3. 鱼鳞的数量。

第一个结果变量是连续的,第二个是二元的(0 = 鱼不超过 30 厘米;1 = 鱼超过 30 厘米),第三个是计数变量。

简单线性回归

年龄如何影响体重?您将制定以下形式的简单线性回归模型:

Weight=β0+β1Age+ϵ

其中的正态分布在这个模型中,假设湖中所有相同年龄的鱼的重量变量的平均值随年龄线性变化。条件均值由之所以称为有条件的,是因为它是湖中所有相同年龄的鱼的平均重量。(无条件的平均重量将是湖中所有鱼的平均重量,无论它们的年龄如何。) ϵσβ0+β1Age

简单的二元逻辑回归

年龄如何影响鱼的长度是否超过 30 厘米?您将制定一个简单的二元逻辑回归模型,其形式如下:

log(p1p)=β0+β1Age

其中表示给定年龄的鱼长于 30 厘米的条件概率。在该模型中,假设湖中所有同龄鱼对应的变量“鱼体长不超过30cm”的条件均值经过logit变换后随年龄呈线性变化。logit 转换的条件均值由该模型之所以有效,是因为我们假设给定年龄的变量“鱼是否长于 30 厘米”的值分布是伯努利分布。回想一下,对于这个分布,方差是平均值的函数,所以如果我们可以估计它的平均值,我们也可以估计它的方差。pβ0+β1Agep and the variance is p(1p).) See also https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/.

Simple Poisson Regression

How does Age affect the number of fish scales? You are going to formulate a simple Poisson regression model of the form:

log(μ)=β0+β1Age

where μ denotes the conditional mean value of the outcome variable "number of fish scales" for fish of a given age (that is, the expected number of fish scales for all fish in the lake of a given age). In this model, the conditional mean of the outcome variable is assumed to vary linearly with age after being fed to the log transformation. The log-transformed conditional mean is represented by β0+β1Age. This model works because we assume that the distribution of values of the variable "number of fish scales" for all the fish in the lake of a given age is a Poisson distribution. Recall that for this distribution, the mean and variance are equal so it is sufficient to model its mean value.

To sum up, a conditional distribution represents the distribution of the outcome values for specific values of the predictor variable(s) included in the model. Each type of regression model illustrated above imposes certain distributional assumptions on the conditional distribution of the outcome variable given Age. Based on these distributional assumptions, the model proceeds to formulate how (1) the mean of the conditional distribution varies as a function of age (simple linear regression), (2) the logit-transformed mean of the conditional distribution varies as a function of age (simple binary logistic regression) or (3) the log-transformed mean of the conditional distribution varies as a function of age.

For each type of model, one can define corresponding residuals for the purpose of model checking. In particular, Pearson and deviance residuals could be defined for the logistic and Poisson regression models.