误差项的分布如何影响响​​应的分布?

机器算法验证 回归 分布
2022-02-11 16:21:44

因此,当我假设误差项在线性回归中呈正态分布时,它对响应变量意味着什么,y?

4个回答

简短的回答是,您无法得出任何关于y, 因为它取决于分布x的和强度和形状的关系。更正式地说,y将具有“正态混合”分布,在实践中几乎可以是任何东西。

这里有两个极端的例子来说明这一点:

  1. 假设只有两种可能x值,0 和 1,以及y=10x+N(0,1). 然后y将具有强烈的双峰分布,在 0 和 10 处有颠簸。
  2. 现在假设相同的关系,但让x均匀分布在具有大量值的 0-1 区间上。然后y将几乎均匀分布在 0-10 区间内(边缘有一些半法线尾部)。

事实上,由于每个分布都可以用正态混合任意近似,你真的可以得到任何分布y.

也许我走了,但我想我们应该想知道f(y|β,X),这就是我阅读OP的方式。在最简单的线性回归情况下,如果您的模型是y=Xβ+ϵ那么模型中唯一的随机分量就是误差项。因此,它决定了样本分布y. 如果ϵN(0,σ2I)然后y|X,βN(Xβ,σ2I). @Aniko 所说的当然是真的f(y)(略高于X,β), 然而。所以就目前而言,这个问题有点模糊。

我们通过在真实数据上施加一个虚构的模型来发明误差项;误差项的分布不影响响应的分布。

我们经常假设误差是正态分布的,因此尝试构建模型以使我们估计的残差是正态分布的。对于某些分布而言,这可能很困难y. 在这些情况下,我想您可以说响应的分布会影响误差项。

如果您将响应写为

y=m+e
在哪里m是“模型”(预测y) 和e是“错误”,那么可以重新排列以指示ym=e. 因此,为错误分配分布与指示模型不完整的方式相同。换句话说,它表明您在多大程度上不知道为什么观察到的响应是它实际的值,而不是模型预测的值。如果您知道您的模型是完美的,那么您将为错误分配一个所有质量为零的概率分布。分配一个N(0,σ2)基本上说误差很小,单位为σ. 这个想法是,对于不同的观察,模型预测倾向于“错误”相似的数量,并且在规模上“大约正确”σ. 作为对比,另一种分配是Cauchy(0,γ)这表示大多数错误都很小,但有些错误却相当大 - 该模型在预测响应方面偶尔会出现“错误”或“令人震惊”。

从某种意义上说,误差分布与模型的联系比与响应的联系更紧密。这可以从上述等式的不可识别性中看出,因为如果两者me是未知的,然后将任意向量添加到m并从中减去e导致相同的值y,y=m+e=(m+b)+(eb)=m+e. 误差分布和模型方程的分配基本上说明了哪些任意向量比其他向量更合理。