机器算法验证 - 误差项的分布如何影响响应的分布？ - 吾爱随笔录

误差项的分布如何影响响应的分布？

机器算法验证回归分布

2022-02-11 16:21:44

因此，当我假设误差项在线性回归中呈正态分布时，它对响应变量意味着什么， $y$ ?

4个回答

简短的回答是，您无法得出任何关于 $y$ , 因为它取决于分布 $x$ 的和强度和形状的关系。更正式地说， $y$ 将具有“正态混合”分布，在实践中几乎可以是任何东西。

这里有两个极端的例子来说明这一点：

假设只有两种可能 $x$ 值，0 和 1，以及 $y = 10x + N(0,1)$ . 然后 $y$ 将具有强烈的双峰分布，在 0 和 10 处有颠簸。
现在假设相同的关系，但让 $x$ 均匀分布在具有大量值的 0-1 区间上。然后 $y$ 将几乎均匀分布在 0-10 区间内（边缘有一些半法线尾部）。

事实上，由于每个分布都可以用正态混合任意近似，你真的可以得到任何分布 $y$ .

也许我走了，但我想我们应该想知道 $f(y|\beta, X)$ ，这就是我阅读OP的方式。在最简单的线性回归情况下，如果您的模型是 $y=X\beta + \epsilon$ 那么模型中唯一的随机分量就是误差项。因此，它决定了样本分布 $y$ . 如果 $\epsilon\sim N(0, \sigma^2I)$ 然后 $y|X, \beta\sim N(X\beta, \sigma^2I)$ . @Aniko 所说的当然是真的 $f(y)$ （略高于 $X, \beta$ ），然而。所以就目前而言，这个问题有点模糊。

我们通过在真实数据上施加一个虚构的模型来发明误差项；误差项的分布不影响响应的分布。

我们经常假设误差是正态分布的，因此尝试构建模型以使我们估计的残差是正态分布的。对于某些分布而言，这可能很困难 $y$ . 在这些情况下，我想您可以说响应的分布会影响误差项。

如果您将响应写为

y = m + e

$\bf{y}=m+e$ 在哪里

m

$\bf{m}$ 是“模型”（预测

y

$\bf{y}$ ）和

e

$\bf{e}$ 是“错误”，那么可以重新排列以指示

y - m = e

$\bf{y}-m=e$ . 因此，为错误分配分布与指示模型不完整的方式相同。换句话说，它表明您在多大程度上不知道为什么观察到的响应是它实际的值，而不是模型预测的值。如果您知道您的模型是完美的，那么您将为错误分配一个所有质量为零的概率分布。分配一个

N (0, σ^{2})

$N(0,\sigma^{2})$ 基本上说误差很小，单位为

σ

$\sigma$ . 这个想法是，对于不同的观察，模型预测倾向于“错误”相似的数量，并且在规模上“大约正确”

σ

$\sigma$ . 作为对比，另一种分配是

C a u c h y (0, γ)

$Cauchy(0,\gamma)$ 这表示大多数错误都很小，但有些错误却相当大 - 该模型在预测响应方面偶尔会出现“错误”或“令人震惊”。

从某种意义上说，误差分布与模型的联系比与响应的联系更紧密。这可以从上述等式的不可识别性中看出，因为如果两者 $\bf{m}$ 和 $\bf{e}$ 是未知的，然后将任意向量添加到 $\bf{m}$ 并从中减去 $\bf{e}$ 导致相同的值 $\bf{y}$ , $\bf{y}=m+e=(m+b)+(e-b)=m'+e'$ . 误差分布和模型方程的分配基本上说明了哪些任意向量比其他向量更合理。

其它你可能感兴趣的问题

上一篇如何针对连续变量绘制二进制（存在/不存在 - 1/0）数据下一篇为什么jackknife的计算量比bootstrap少？

误差项的分布如何影响响​​应的分布？

误差项的分布如何影响响应的分布？