我有一个关于机器学习研究验证的具体问题。
众所周知,机器学习机制要求研究人员在训练数据上训练他们的模型,通过验证集从候选模型中选择,并报告测试集的准确性。在非常严格的研究中,测试集只能使用一次。但是,它永远不可能是研究场景,因为我们必须提高我们的性能,直到测试准确度优于最先进的结果,然后我们才能发表(甚至提交)论文。
现在问题来了。假设 50% 是最先进的结果,我的模型一般可以达到 50--51 的准确率,平均而言更好。
然而,我最好的验证准确度(52%)产生了一个非常低的测试准确度,例如,49%。然后,如果我不能进一步改进验证 acc,我必须报告 49% 作为我的整体表现,我认为这是没有希望的。这确实使我无法研究这个问题,但这对我的同龄人来说并不重要,因为他们没有看到 52% 的 acc,我认为这是一个异常值。
那么,人们通常如何进行研究呢?
ps k-fold 验证没有帮助,因为同样的情况仍然可能发生。