回归结果具有意外的上限

机器算法验证 回归 分布 数据转换 预言 界限
2022-03-04 00:45:32

我尝试预测平衡分数并尝试了几种不同的回归方法。我注意到的一件事是预测值似乎有某种上限。也就是说,实际余额在[0.0,1.0),但我的预测最高0.8. 下图显示了实际余额与预测余额(使用线性回归预测):

实际与预测

这是相同数据的两个分布图:

初始分布

由于我的预测变量非常偏斜(具有幂律分布的用户数据),我应用了 Box-Cox 变换,将结果更改为以下内容:

Box-Cox 变换后的实际与预测

Box-Cox 变换后的分布

尽管它改变了预测的分布,但仍有上限。所以我的问题是:

  • 预测结果出现这种上限的可能原因是什么?
  • 如何修复预测以对应实际值的分布?

奖励:由于 Box-Cox 变换后的分布似乎遵循变换后的预测变量的分布,这可能是直接相关的吗?如果是这样,是否可以应用转换以使分布适合实际值?

编辑:我使用了一个带有 5 个预测变量的简单线性回归。

2个回答

您的 dep var 介于 0 和 1 之间,因此 OLS 并不完全合适,我建议例如 beta 回归,并且可能还有其他方法。但其次,在你的 box-cox 转换之后,你说你的预测是有界的,但你的图表没有显示出来。

虽然有很多关注使用服从 0/1 边界的回归,这是合理的(而且很重要!),但为什么 LPM 不能预测大于 0.8 的结果的具体问题让我觉得这是一个稍微不同的问题.

在任何一种情况下,您的残差中都有一个值得注意的模式,即您的线性模型很适合您的分布的上尾。这意味着正确的模型存在一些非线性。

还考虑数据 0/1 界限的解决方案:概率、logit 和 beta 回归。鉴于您的分布相对接近 1,因此该主题的答案数量众多,因此该界限至关重要,必须解决您的工作才能严谨。

但是,通常问题是 LPM 超过了 0/1 界限。这不是这里的情况!如果您不关心 0/1 界限并积极想要一个可以拟合 (x'x)^-1(x'y) 的解决方案,那么请考虑该模型可能不是严格线性的。将模型拟合为 x^2 的函数、自变量的叉积或自变量的对数有助于提高拟合度,并可能提高模型的解释力,使其估计值大于 0.8。