在 ML 中,我们被灌输了关于训练/验证/测试拆分的知识。一个简单的拆分将提供一个用于验证的误差点估计和一个用于测试的误差点估计。如果使用 k-fold 方法,我们可能会得到更多的点以及误差分布的均值和方差的基本含义。虽然该方法的实际方面看起来很清楚(许多现代模型可能需要数小时/数天的时间来训练,而且我们负担不起运行 50 倍的交叉验证),但我仍然看不到有多少 ML 论文(或者,就此而言,应用的业务应用程序)可以避免声称对单个错误点估计的十进制级别的改进。至少运行某种引导程序来评估错误分布以声称“我们的新模型以 75% 的可能性优于 SOTA”难道不是有意义的吗?我的意思是,那不
为什么大多数 ML 论文完全忽略了验证错误的方差?
机器算法验证
机器学习
交叉验证
2022-04-11 07:15:46
1个回答
当前机器学习研究的趋势是训练大型模型。让我引用一篇文章
在重要的机器学习智囊团 OpenAI,研究人员最近设计并训练了一个备受赞誉的深度学习语言系统 GPT-3,耗资超过 400 万美元。尽管他们在实施该系统时犯了一个错误,但他们没有修复它,只是在他们的学术出版物的补充中解释说“由于培训成本,重新培训模型是不可行的。”
如果一个模型的训练成本太高以修复一个错误,那么肯定没有人会去打扰-折叠交叉验证。
此外,如果您有一个庞大的数据集并对其进行子采样,则子样本仍将足够大以降低方差。当然,假设重新训练是确定性的,那么事实并非如此,因为在机器学习中有已知的不可重现结果的例子,或者使用不同的随机种子获得不同的结果。