噪声的平均值为 0

数据挖掘 机器学习 分类 回归
2022-03-07 18:48:15

为什么我们假设在数据集中,以随机误差项表示的误差均值为 0 ?

对我来说,我们在日常生活中可以研究的每一个事件都有一个 0 均值的错误似乎是不可能的......

2个回答

在回归设置中,我们希望通过从数据中来尽可能好地用输入向量的函数这可以写成 其中是具有某些属性的随机变量。现在假设这就是你害怕的情况。然后我们可以将上面的方程改写为 yfxf

y=f(x)+ε
εE(ε)=α0
y=f(X)αg(X)+ε
E(ε)=0

大多数假设平均零噪声的算法会自动估计,而不是所以在实践中,这不是问题。gf

然而,在线性回归中,限制要强得多。有一个假设(除其他外)E(εx)=0(严格的外生性)。这个假设不会自动实现,需要模型中存在正确的回归器。

正如你一直说的那样,这不是真的。然而,在大多数情况下,误差的性质是随机的,我们知道随机误差具有正态分布。要了解更多信息,请参阅这篇文章

另外,你可以看看这个帖子,看看为什么大多数时候,错误是正常的:

误差项可以被认为是许多次要影响或误差的组合。随着这些次要影响的数量越来越大,误差项的分布趋于接近正态分布。这种趋势被称为中心极限定理。t 检验和 F 检验不适用,除非误差项是正态分布的。

总之,由于随机误差具有正态分布(在大多数情况下),其均值被认为是零。