我们有一个包含 10,000 个手动标记实例的数据集,以及一个针对所有这些数据进行训练的分类器。然后对所有这些数据评估分类器以获得 95% 的成功率。
这种方法到底有什么问题?只是在这个设置中 95% 的统计信息不是很丰富吗?这个 95% 的数字还有价值吗?虽然我知道从理论上讲这不是一个好主意,但我在这方面没有足够的经验来自己确定。另请注意,我既没有构建也没有评估有问题的分类器。
抛开常识不谈,有人能给我一个非常可靠、权威的参考,说这个设置有什么问题吗?
我在互联网上找到的只是用来传达一些直觉的玩具示例。在这里,我有一个由具有既定记录的专业人士完成的项目,所以我不能只说“这是错误的”,尤其是因为我不确定。
例如,此页面确实说:
使用用于训练的数据评估模型性能在数据挖掘中是不可接受的,因为它很容易生成过度乐观和过度拟合的模型。
但是,这几乎不是权威的参考。事实上,这句话显然是错误的,因为评估与生成过拟合模型无关。它可能会产生过度乐观的数据科学家,他们会选择错误的模型,但特定的评估策略与过度拟合模型本身没有任何关系。