在谷歌机器学习速成课程的这个页面上,我们发现了以下语句:
“测试集和验证集会随着重复使用而“磨损”。也就是说,你越多地使用相同的数据来做出关于超参数设置或其他模型改进的决策,你就越不相信这些结果实际上可以推广到新的,看不见的数据。请注意,验证集通常比测试集磨损得更慢。 “
最后一句没看懂 为什么验证集会比测试集磨损得慢?对我来说,由于验证集的使用比测试集更频繁,它会磨损得更快。我错过了什么?
在谷歌机器学习速成课程的这个页面上,我们发现了以下语句:
“测试集和验证集会随着重复使用而“磨损”。也就是说,你越多地使用相同的数据来做出关于超参数设置或其他模型改进的决策,你就越不相信这些结果实际上可以推广到新的,看不见的数据。请注意,验证集通常比测试集磨损得更慢。 “
最后一句没看懂 为什么验证集会比测试集磨损得慢?对我来说,由于验证集的使用比测试集更频繁,它会磨损得更快。我错过了什么?
不接触原作者就很难说。但是,我希望这是指使用每个集合来实现其目的的能力。
验证集的目的是根据某些指标选择性能最佳的超参数。验证集上的最佳测量应该始终对成为现实中最好的有最高期望。如果您进行了非常多的测量,那么最佳测量成为真正最佳的绝对概率可能会很低,但是通常性能不佳的一组超参数总体获胜的机会不会增加得那么快。您可以合理地确定您选择了“最好的之一”加上“最有可能成为最好的那个”,即使如果您运行了 100 次验证,这可能只有 10% 的机会。
测试集的目的是测量没有偏差的度量。如果您将其用于模型比较或选择,那么这可能会受到最大化偏差的影响 - 因为测量中存在不确定性,关注相对值并选择“最佳”几乎肯定会高估真实值。这种效果发生得非常快。如果您测量两组超参数的指标并选择最好的一组,您应该已经预料到您获得的指标值被高估了。请注意,平均而言,您仍然期望您选择了更好的选项,但您不能那么信任测量结果。