机器算法验证 - 回归残差分布假设 - 吾爱随笔录

回归残差分布假设

机器算法验证回归正态分布残差假设符号

2022-03-03 23:45:17

为什么有必要对误差进行分布假设，即

$y_i = X\beta + \epsilon_{i}$ ，与 $\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2})$ 。

为什么不写

$y_i = X\beta + \epsilon_{i}$ ，与 $y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2})$ ，

在任何一种情况下 $\epsilon_i = y_i - \hat{y}$ 。
我已经看到它强调分布假设是放在错误上的，而不是数据上，但没有解释。

我不太了解这两种配方之间的区别。在某些地方，我看到对数据进行了分布假设（贝叶斯点燃。似乎主要是），但大多数情况下，这些假设都放在了错误上。

在建模时，为什么/应该选择从对其中一个或另一个的假设开始？

4个回答

我会将第二个定义写为

$y_i \sim \mathcal{N}(X_i\beta, \sigma^2)$

或（正如 Karl Oskar 建议的那样 +1）

$y_i|X_i \sim \mathcal{N}(X_i\beta, \sigma^2)$

即建模假设是响应变量正态分布在回归线周围（这是条件均值的估计），具有恒定方差。这与暗示是正态分布的不同，因为分布的平均值取决于。 $\sigma^2$ $y_i$ $X_i$

我想我在机器学习文献中看到过类似的表述；据我所知，它等同于第一个定义，我所做的只是稍微不同地表达第二个公式，以消除和。 $\epsilon_i$ $\hat{y}$

在线性回归设置中，通常以为条件进行分析并得出结果，即以“数据”为条件。因此，您需要的是是正常的，也就是说，您需要是正常的。正如 Peter Flom 的示例所示，一个人可以有的正态性而没有的正态性，因此，由于你需要的是的正态性，这是一个明智的假设。 $X$ $y\mid X$ $\epsilon$ $\epsilon$ $y$ $\epsilon$

用一个例子最容易说明这种差异。这是一个简单的：

假设 Y 是双峰的，其中的模态由一个自变量解释。例如，假设 Y 是身高，而您的样本（无论出于何种原因）由骑师和篮球运动员组成。例如在R

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

第一个密度非常不正常。但是模型的残差非常接近正常值。

至于为什么以这种方式设置限制 - 我会让其他人回答那个问题。

您需要在第二个公式中添加下标 i：因为需要能够随变化。

y_{i} \sim N ({\hat{y}}_{i}, σ_{ε}^{2})

$y_i\sim\mathcal N(\hat y_i,\sigma^2_\varepsilon)$

\hat{y}

$\hat y$

x_{i}

$\bf x_i$

已经注意到，什么是？它是。这导致了@DikranMarsupial 提出的公式：值得认识到这与您的第一个完全相同公式，因为两者都规定了正态分布并且期望值相等。即：（显然方差是相等的。）换句话说，这是 $\hat y_i$ $\bf x_i\boldsymbol{\hat\beta}$

y_{i} \sim N (x_{i} \hat{β}, σ_{ε}^{2})

$y_i\sim\mathcal N({\bf x_i}\boldsymbol{\hat\beta},\sigma^2_\varepsilon)$

\begin{aligned} E [x_{i} \hat{β}] & = E [x_{i} \hat{β} + E [N (0, σ_{ε}^{2})]] \\ = E [x_{i} \hat{β} + 0] \\ = E [x_{i} \hat{β}] \end{aligned}

$\begin{align} E[{\bf x_i}\boldsymbol{\hat\beta}] &= E[{\bf x_i}\boldsymbol{\hat\beta} + E[\mathcal N(0, \sigma^2_\varepsilon)]] \\ &= E[{\bf x_i}\boldsymbol{\hat\beta} + 0] \\ &= E[{\bf x_i}\boldsymbol{\hat\beta}] \end{align}$ 不是假设上的差异，而只是符号上的差异。

那么问题就变成了，是否有理由更喜欢使用第一个公式来表达这个想法？

我认为答案是肯定的，原因有二：

人们经常混淆原始数据是否应该是正态分布的（即），或者是否以 / 错误为条件的数据应该是正态分布的（即 /），例如，参见:如果残差是正态分布的，但 y 不是？ $Y$ $\bf X$ $Y|\bf X$ $\varepsilon$
人们还经常混淆什么应该是独立的、原始数据或错误。此外，我们经常提到某物应该是独立同分布的（独立同分布）；如果您根据进行思考，这可能是另一个潜在的混淆来源，因为可以是独立的，但除非零假设成立（因为平均值会有所不同），否则不能同分布。 $Y|\bf X$ $Y|\bf X$

我相信这些混淆更有可能使用第二种表述而不是第一种。

其它你可能感兴趣的问题

上一篇如何在大量数据点中执行值的插补？下一篇您如何向没有统计背景的人解释统计意义？