线性回归中的均匀分布残差

机器算法验证 回归 可能性 分布 正态分布 均匀分布
2022-03-15 10:18:14

如果残差是均匀分布的(而不是正常的),您对线性回归有何看法?我想考虑一下我有一个直方图显示残差均匀分布在 -1 和 1 之间的情况。

我们仍然有在 0 左右对称分布的误差,所以我认为估计值仍然与正态分布的误差相同。这是真的?我们还能说什么?估计的方差/ p 值呢?

2个回答

对于这种情况,我们可以说几件事

  • 残差的正态性条件只需要大约保持. 如果样本量很小,则很难将均匀分布与正态分布区分开来,在这种情况下,将残差评估为似是而非的正态分布是合理的。如果样本量很大,显然情况并非如此。

  • 估计将是无偏的

  • 估计将是一致的

  • 如果使用最小二乘法,回归系数估计量不会是 t 分布的,因此相关的 p 值将不可靠。

经典的线性回归模型在假设数据可以建模为

y = Ax + b + eta

哪里eta ~ N(0,sigma)

如果您的残差是均匀分布的,则意味着上述假设不成立。

但是,这种线性回归仍然可以为您工作,具体取决于应用程序 - 均匀模型和高斯模型都是对称的,具有E(data) = median(data). 因此,即使数据不是真正的“高斯”,最适合数据的线(根据平均值/中位数)将是相同的(同样,取决于应用程序)。

一个可能适合您的选项是贝叶斯线性回归 (BLR):

在 BLR 中,您可以选择您的模型假设:eta ~ U(-1,1)eta ~ N(0,sigma)都是eta ~ Beta(2,2)有效假设。任何最适合您的数据的东西