乍一看,您的结论似乎是正确的,但有一些重要的注意事项需要牢记。
首先,您的训练和验证集的大小是多少?如果您的验证集太小,则观察到的差异可能在统计上不显着。
其次,您应该验证您的验证集是一个有代表性的样本。(即它应该来自与训练集相同的分布)。如果它不具有代表性,那么它可能会给出较差的性能估计。
第三,在调整超参数时,最好将数据集分成三个分片——训练、验证和测试。您可以使用训练集和验证集来找到最佳超参数(如您所做的那样),然后使用测试集为调整后的模型生成性能估计。如果您信任在超参数调整期间获得的验证准确性,那么您可能会出现一种微妙的过度拟合形式,其中超参数专门用于验证集。
最后,如果您有计算资源,那么使用交叉验证而不是训练测试拆分来评估准确性总是一个好主意。这将为您提供更可靠的准确性估计。
如果您已选中所有这些框,那么您有充分的理由相信 500 个估算器比 100 个估算器好!
[S]我是否应该多次更改验证数据,看看是否会通过将估计量从 100 个转移到 500 个来发生类似的增量?
是的,尝试许多不同的超参数配置总是一个好主意。您可以使用 scikit-learnGridSearchCV或RandomizedSearchCV轻松地在超参数空间上运行搜索。