我一直在与几个实验室成员讨论这个问题,我们已经找到了几个来源,但仍然没有答案:
当我们说 GLM 有一个泊松族时,我们说的是残差分布还是响应变量?
我一直在与几个实验室成员讨论这个问题,我们已经找到了几个来源,但仍然没有答案:
当我们说 GLM 有一个泊松族时,我们说的是残差分布还是响应变量?
glm 模型的family参数确定响应的条件分布的分布族,而不是残差的分布族(准模型除外)。
这样看:对于通常的线性回归,我们可以将模型写为
这意味着响应具有正态分布(具有恒定方差),但每个的期望不同。因此,响应的条件分布是正态分布(但每个的分布不同)。编写此模型的另一种方法是
其中每个分布为。
因此,对于正态分布族,两种描述都是正确的(正确解释时)。这是因为对于正常线性模型,我们在系统部分()和扰动部分()的模型中有一个清晰的分离,它们只是简单地相加。但是对于其他家庭功能,这种分离是不可能的!甚至没有明确定义剩余的含义(因此,“剩余”有许多不同的定义)。
因此,对于所有其他系列,我们使用上面第一个显示的方程样式的定义。即响应的条件分布。所以,不,泊松回归中的残差(无论定义什么)没有泊松分布。
除了 Kjetil 的出色回答之外,我想添加一些具体示例来帮助阐明条件分布的含义,这可能是一个难以捉摸的概念。
假设您从湖中随机抽取了 100 条鱼样本,并且您有兴趣了解鱼的年龄如何影响几个结果变量:
第一个结果变量是连续的,第二个是二元的(0 = 鱼不超过 30 厘米;1 = 鱼超过 30 厘米),第三个是计数变量。
简单线性回归
年龄如何影响体重?您将制定以下形式的简单线性回归模型:
其中的正态分布。在这个模型中,假设湖中所有相同年龄的鱼的重量变量的平均值随年龄线性变化。条件均值由。之所以称为有条件的,是因为它是湖中所有相同年龄的鱼的平均重量。(无条件的平均重量将是湖中所有鱼的平均重量,无论它们的年龄如何。)
简单的二元逻辑回归
年龄如何影响鱼的长度是否超过 30 厘米?您将制定一个简单的二元逻辑回归模型,其形式如下:
其中表示给定年龄的鱼长于 30 厘米的条件概率。在该模型中,假设湖中所有同龄鱼对应的变量“鱼体长不超过30cm”的条件均值经过logit变换后随年龄呈线性变化。logit 转换的条件均值由。该模型之所以有效,是因为我们假设给定年龄的变量“鱼是否长于 30 厘米”的值分布是伯努利分布。回想一下,对于这个分布,方差是平均值的函数,所以如果我们可以估计它的平均值,我们也可以估计它的方差。 and the variance is .) See also https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/.
Simple Poisson Regression
How does Age affect the number of fish scales? You are going to formulate a simple Poisson regression model of the form:
where denotes the conditional mean value of the outcome variable "number of fish scales" for fish of a given age (that is, the expected number of fish scales for all fish in the lake of a given age). In this model, the conditional mean of the outcome variable is assumed to vary linearly with age after being fed to the log transformation. The log-transformed conditional mean is represented by . This model works because we assume that the distribution of values of the variable "number of fish scales" for all the fish in the lake of a given age is a Poisson distribution. Recall that for this distribution, the mean and variance are equal so it is sufficient to model its mean value.
To sum up, a conditional distribution represents the distribution of the outcome values for specific values of the predictor variable(s) included in the model. Each type of regression model illustrated above imposes certain distributional assumptions on the conditional distribution of the outcome variable given Age. Based on these distributional assumptions, the model proceeds to formulate how (1) the mean of the conditional distribution varies as a function of age (simple linear regression), (2) the logit-transformed mean of the conditional distribution varies as a function of age (simple binary logistic regression) or (3) the log-transformed mean of the conditional distribution varies as a function of age.
For each type of model, one can define corresponding residuals for the purpose of model checking. In particular, Pearson and deviance residuals could be defined for the logistic and Poisson regression models.