随机森林的超参数调整 - 选择最佳最大深度

数据挖掘 随机森林 准确性 过拟合 超参数调整
2022-02-16 05:05:54

我正在尝试为随机森林模型选择最佳参数。
为了这个目标,我只使用一个参数循环运行我的模型,并且每次我都更改了参数最大深度的数字。我创建了两张图表:一张用于模型得分,一张用于 MAE。这是图表的样子: 在此处输入图像描述

在此处输入图像描述

我的问题是该参数的正确数字是多少?当训练集和测试集彼此接近且高(第二点,当准确率在90以上时)时,我觉得我想选择非常低的数字:
在此处输入图像描述

但我看到它在很久之后变得稳定,我担心它可能会导致过度拟合。

这是真的吗?只要训练和测试数据具有相同的准确性和相同的误差,我应该从稳定区域中选择更大的数字还是可以选择较小的数字?

1个回答

通常,最大深度参数应保持在较低的值以避免过度拟合:如果树很深,则意味着模型使用更少的实例在更详细的级别创建更多规则。很多时候,其中一些规则是偶然的,即它们与数据中的真实模式不对应。

从训练集和测试集性能之间的巨大差异中可以看出过度拟合。可以观察到,测试集的性能随着深度的前几个值而增加(我猜到大约 5 左右),然后开始下降。所以最佳点(性能和没有过度拟合)是你提到的点,在这一点之后模型是过度拟合的。

图的稳定部分可能是由于另一个参数(例如,每片叶子的最小实例数)阻止了模型的过度拟合。如果模型可以随意过度拟合,它可能会在训练集上达到最大性能,而在测试集上性能非常低。

注意:我很困惑为什么你同时使用准确性和 MAE,通常前者用于分类,后者用于回归。