机器算法验证 - 回归结果具有意外的上限 - 吾爱随笔录

回归结果具有意外的上限

机器算法验证回归分布数据转换预言界限

2022-03-04 00:45:32

我尝试预测平衡分数并尝试了几种不同的回归方法。我注意到的一件事是预测值似乎有某种上限。也就是说，实际余额在 $[0.0, 1.0)$ ，但我的预测最高 $0.8$ . 下图显示了实际余额与预测余额（使用线性回归预测）：

实际与预测

这是相同数据的两个分布图：

初始分布

由于我的预测变量非常偏斜（具有幂律分布的用户数据），我应用了 Box-Cox 变换，将结果更改为以下内容：

Box-Cox 变换后的实际与预测

Box-Cox 变换后的分布

尽管它改变了预测的分布，但仍有上限。所以我的问题是：

预测结果出现这种上限的可能原因是什么？
如何修复预测以对应实际值的分布？

奖励：由于 Box-Cox 变换后的分布似乎遵循变换后的预测变量的分布，这可能是直接相关的吗？如果是这样，是否可以应用转换以使分布适合实际值？

编辑：我使用了一个带有 5 个预测变量的简单线性回归。

2个回答

您的 dep var 介于 0 和 1 之间，因此 OLS 并不完全合适，我建议例如 beta 回归，并且可能还有其他方法。但其次，在你的 box-cox 转换之后，你说你的预测是有界的，但你的图表没有显示出来。

虽然有很多关注使用服从 0/1 边界的回归，这是合理的（而且很重要！），但为什么 LPM 不能预测大于 0.8 的结果的具体问题让我觉得这是一个稍微不同的问题.

在任何一种情况下，您的残差中都有一个值得注意的模式，即您的线性模型很适合您的分布的上尾。这意味着正确的模型存在一些非线性。

还考虑数据 0/1 界限的解决方案：概率、logit 和 beta 回归。鉴于您的分布相对接近 1，因此该主题的答案数量众多，因此该界限至关重要，必须解决您的工作才能严谨。

但是，通常问题是 LPM 超过了 0/1 界限。这不是这里的情况！如果您不关心 0/1 界限并积极想要一个可以拟合 (x'x)^-1(x'y) 的解决方案，那么请考虑该模型可能不是严格线性的。将模型拟合为 x^2 的函数、自变量的叉积或自变量的对数有助于提高拟合度，并可能提高模型的解释力，使其估计值大于 0.8。

其它你可能感兴趣的问题

上一篇EM算法是否一致地估计高斯混合模型中的参数？下一篇“零假设统计检验”与任何其他检验有什么区别？