我正在测试包含 50 个变量和 5000 个样本大小的数据集的多项式回归。我将线性模型的系数从高到低排序,然后使用p最多的解释变量制作不同的模型。这些模型的 RMSE 值如下图所示。对于 degree=2 的多项式回归,一切似乎都很正常,但对于 degree=3,会发生一些奇怪的事情。(虚线表示最小RMSE的位置)
我不明白为什么使用超过 27 个变量时测试 RMSE 会下降?它似乎开始欠拟合而不是过度拟合更多变量。有趣的是,这发生在训练 RMSE 变为 1e-14 左右的同时。同时,调整后的 R 平方此时显示以下奇怪的行为:
我是否为这个多项式回归使用了太多维度?还是有其他原因导致这种情况发生?我很想了解发生了什么。我将很快转向更好的算法,但我只是想为我的 ML 项目做一个基准。提前致谢!


