回归残差分布假设

机器算法验证 回归 正态分布 残差 假设 符号
2022-03-03 23:45:17

为什么有必要对误差进行分布假设,即

yi=Xβ+ϵi,与ϵiN(0,σ2)

为什么不写

yi=Xβ+ϵi,与yiN(Xβ^,σ2)

在任何一种情况下ϵi=yiy^
我已经看到它强调分布假设是放在错误上的,而不是数据上,但没有解释。

我不太了解这两种配方之间的区别。在某些地方,我看到对数据进行了分布假设(贝叶斯点燃。似乎主要是),但大多数情况下,这些假设都放在了错误上。

在建模时,为什么/应该选择从对其中一个或另一个的假设开始?

4个回答

我会将第二个定义写为

yiN(Xiβ,σ2)

或(正如 Karl Oskar 建议的那样 +1)

yi|XiN(Xiβ,σ2)

即建模假设是响应变量正态分布在回归线周围(这是条件均值的估计),具有恒定方差这与暗示是正态分布的不同,因为分布的平均值取决于σ2yiXi

我想我在机器学习文献中看到过类似的表述;据我所知,它等同于第一个定义,我所做的只是稍微不同地表达第二个公式,以消除ϵiy^

在线性回归设置中,通常以为条件进行分析并得出结果,即以“数据”为条件。因此,您需要的是是正常的,也就是说,您需要是正常的。正如 Peter Flom 的示例所示,一个人可以有的正态性而没有的正态性,因此,由于你需要的是的正态性,这是一个明智的假设。XyXϵϵyϵ

用一个例子最容易说明这种差异。这是一个简单的:

假设 Y 是双峰的,其中的模态由一个自变量解释。例如,假设 Y 是身高,而您的样本(无论出于何种原因)由骑师和篮球运动员组成。例如在R

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

第一个密度非常不正常。但是模型的残差非常接近正常值。

至于为什么以这种方式设置限制 - 我会让其他人回答那个问题。

您需要在第二个公式中添加下标 i: 因为需要能够随变化。

yiN(y^i,σε2)
y^xi


已经注意到,什么是它是这导致了@DikranMarsupial 提出的公式: 值得认识到这与您的第一个完全相同公式,因为两者都规定了正态分布并且期望值相等。即: (显然方差是相等的。)换句话说,这是y^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]
不是假设上的差异,而只是符号上的差异。

那么问题就变成了,是否有理由更喜欢使用第一个公式来表达这个想法?

我认为答案是肯定的,原因有二:

  1. 人们经常混淆原始数据是否应该是正态分布的(即),或者是否以 / 错误为条件的数据应该是正态分布的(即 /),例如,参见:如果残差是正态分布的,但 y 不是?YXY|Xε
  2. 人们还经常混淆什么应该是独立的、原始数据或错误。此外,我们经常提到某物应该是独立同分布的(独立同分布);如果您根据进行思考,这可能是另一个潜在的混淆来源,因为可以是独立的,但除非零假设成立(因为平均值会有所不同),否则不能同分布。 Y|XY|X

我相信这些混淆更有可能使用第二种表述而不是第一种。