我尝试预测平衡分数并尝试了几种不同的回归方法。我注意到的一件事是预测值似乎有某种上限。也就是说,实际余额在,但我的预测最高. 下图显示了实际余额与预测余额(使用线性回归预测):
这是相同数据的两个分布图:
由于我的预测变量非常偏斜(具有幂律分布的用户数据),我应用了 Box-Cox 变换,将结果更改为以下内容:
尽管它改变了预测的分布,但仍有上限。所以我的问题是:
- 预测结果出现这种上限的可能原因是什么?
- 如何修复预测以对应实际值的分布?
奖励:由于 Box-Cox 变换后的分布似乎遵循变换后的预测变量的分布,这可能是直接相关的吗?如果是这样,是否可以应用转换以使分布适合实际值?
编辑:我使用了一个带有 5 个预测变量的简单线性回归。