在随机森林回归中进行分割时使用的默认特征数量在 Python 的 sklearn 中是回归问题中的预测变量的数量(请参阅sklearn 文档:If , then = )。在 R 的 randomForest 包中,在回归问题中进行拆分时使用的默认特征数是(请参阅randomForest 文档,特别是 的参数)。automax_featuresn_featuresmtryrandomForest
这一点在https://github.com/scikit-learn/scikit-learn/issues/7254 (简要)讨论过,其中一位 sklearn 贡献者说。我已经在几个地方建议(例如https://stackoverflow.com/questions/23939750/understanding-max-features-parameter-in-randomforestregressor和https://web. stanford.edu/~hastie/Papers/ESLII.pdf)
我的一般理解是应该始终在随机森林回归问题中进行调整,并且最佳可能会因设置而异。是否有任何参考文献在回归(而不是分类)的背景下专门是否有充分的理由偏爱 R 或 sklearn 的默认值(或者答案应该是“不要使用默认值,始终调整”,以便默认值无关紧要)?