数据挖掘 - 正态分布和随机森林 - 吾爱随笔录

我在数据帧（600k 行）中有一个大表，其中有 y 列（我要预测的变量）和其他 4 个其他列是 X。我运行了RF 回归器 ，当我在训练和测试。

然而，当我试图预测另一组数据（非常相似，有 1M 行）时，我得到了 0.65 的分数。 所以我认为这是过度拟合。当我试图理解它为什么会发生时，我回到了 y 列的分布，它看起来像这样：

我的问题是，是不是因为我的数据没有正态分布（或非常偏斜......）我的模型性能很差？所有变量都需要服从正态分布吗？随机森林回归的分数是如何计算的？id 值为 0.25 并且 predict 为 0.26 它算作正确的预测吗？