我在一些著名的数据集(自行车共享、糖尿病患者等)上应用了不同的回归模型(RF、Knn 等)。的价值R2非常好。从 R2 分数,我们可以说该模型运行良好(尽管并非对每种情况都如此)。所以,我有MSE,MAE和MAPE方法。但是,MAE/MAPE/MSE 的值非常高,这意味着模型的预测非常糟糕,并且与实际值(真实标签)相差甚远。
数据集的准确度得分
Name MAE MAPE R2 MSE
Bike 24.56 0.34 0.95 1615
Diabetics 0.06 2321.20 0.87 0.03
用于计算 MAPE 的公式
MAPE = np.mean(np.abs(predictions - y_test) / (y_test + 1e-5))
我想知道,当 R2 值很好(非常高)时,同时模型的预测如何可能非常糟糕(我们可以从 MSE/MAPE/MAE 分数中得到)
数据集的描述
Name Count Mean Std Min Max
Bike 17379 189.46 181.38 1.00 977
Diabetics 768 0.34 0.47 0 1