很大程度上取决于规模。我希望我能指望像@RyanZotti 通常拥有的超过 2,000-3,000 个案例;我很少有这么多的 1/10。这是“大数据”机器学习人员和在生物医学等领域工作的人员在视角上的巨大差异,这可能解释了您会在本网站上找到的一些不同视角。
我将介绍我对这个问题的看法的启发式解释。如维基百科页面所述,过度拟合的基本问题是案例数量与您正在评估的参数数量之间的关系。所以从一个粗略的想法开始,如果你有M个模型,你正在选择其中每个模型有p个参数,那么你正在评估总共Mp个参数的顺序。
如果存在过度拟合的危险,有两种通用方法可以退回到更通用的模型:减少参数数量或以某种方式惩罚它们。
拥有足够大的数据集,您可能永远不会接近过度拟合。如果您有 20,000 个案例和 20 个不同的模型,每个模型有 100 个参数,那么即使没有惩罚,您也可能不会遇到麻烦,因为每个有效参数仍然有 10 个案例。不要尝试仅使用 200 个案例的建模策略。
模型平均可能被认为是一种惩罚形式。在@RyanZotti 引用的 Kaggler 示例中,案例的数量可能是巨大的,最终集成中的“数千个”模型中的每一个单独贡献了最终模型的一小部分。任何特定于特定贡献模型的过度拟合都不会对最终结果产生很大影响,而且 Kaggler 比赛中的大量案例进一步降低了过度拟合的危险。
所以,就像这里有很多问题一样,唯一合理的答案是:“这取决于。” 在这种情况下,它取决于案例数量与检查的有效参数数量之间的关系,以及应用了多少惩罚。