机器算法验证 - 线性回归中的均匀分布残差 - 吾爱随笔录

机器算法验证回归可能性分布正态分布均匀分布

2022-03-15 10:18:14

如果残差是均匀分布的（而不是正常的），您对线性回归有何看法？我想考虑一下我有一个直方图显示残差均匀分布在 -1 和 1 之间的情况。

我们仍然有在 0 左右对称分布的误差，所以我认为估计值仍然与正态分布的误差相同。这是真的？我们还能说什么？估计的方差/ p 值呢？

2个回答

对于这种情况，我们可以说几件事

残差的正态性条件只需要大约保持. 如果样本量很小，则很难将均匀分布与正态分布区分开来，在这种情况下，将残差评估为似是而非的正态分布是合理的。如果样本量很大，显然情况并非如此。
估计将是无偏的
估计将是一致的
如果使用最小二乘法，回归系数估计量不会是 t 分布的，因此相关的 p 值将不可靠。

经典的线性回归模型在假设数据可以建模为

y = Ax + b + eta

哪里eta ~ N(0,sigma)。

如果您的残差是均匀分布的，则意味着上述假设不成立。

但是，这种线性回归仍然可以为您工作，具体取决于应用程序 - 均匀模型和高斯模型都是对称的，具有E(data) = median(data). 因此，即使数据不是真正的“高斯”，最适合数据的线（根据平均值/中位数）将是相同的（同样，取决于应用程序）。

一个可能适合您的选项是贝叶斯线性回归 (BLR)：

在 BLR 中，您可以选择您的模型假设：eta ~ U(-1,1)或eta ~ N(0,sigma)都是eta ~ Beta(2,2)有效假设。任何最适合您的数据的东西

其它你可能感兴趣的问题