机器算法验证 - 随机森林回归之前的 PCA 为我的数据集提供了比随机森林回归更好的预测分数，如何解释它？ - 吾爱随笔录

我有一个回归数据集，其中特征大约有 400 个变量，数据集本身大约有 300 个样本。我尝试在数据集上使用随机森林回归 (RFR)，并使用袋外 (oob) 分数或 k-fold cv 分数来判断其性能。我现在看到的那种我试图理解的行为是，如果我直接使用 RFR，无论我使用多少棵树或者我结合了什么样的参数调整，我都不会获得好的性能，而如果我在 RFR 之前加入 PCA，我可以对 RFR 之前的 PC 数量和大约 8 或 9 台 PC 运行网格搜索，处理流程可以提供稍微下降的分数。当我扫描 PC 数量时，分数会在这个“最佳 PC 数量”附近上升和下降。

我试图理解这种行为，因为我试图在我发现的几个玩具数据集上使用相同的处理流程，通常有或没有 PCA 对 RFR 性能不会有太大变化。我担心的一个问题是我的数据集是一个非常嘈杂的数据集，到目前为止我尝试的大多数回归方法都不会提供很好的性能，除了这个 PCA-RFR 流程。所以我不确定这是否是一个垃圾进垃圾出的情况，这个 PCA-RFR 东西只是以某种方式过度拟合我的数据集。另一方面，我的特征彼此非常共线，而且我没有那么多数据来训练我的模型，所以 PCA 预处理可以帮助对数据集进行一些去噪，并且还可以帮助减少我的训练集的过度拟合与一组较小的“减少特征”，

如果有人以前看过这个并且有很好的解释或有任何关于 PCA-RFR 行为的参考论文，请告诉我，我将非常感激。