假设通过使用 1000 个人的数据集并且每个人有十张他的脸的图像,为一个二元分类问题(例如识别人脸是否为笑脸)构建了一个神经网络。如果数据集以 70:30 的比例随机溢出到 trainset 和 testset 中,在这种情况下,很有可能同一个人的人脸图像将同时用于 trainset 和 testset,所以这被认为是数据泄漏(火车测试污染)?
在训练集和测试集中使用同一个人的样本是否被认为是数据泄漏?
数据挖掘
神经网络
数据泄露
2022-02-22 15:56:17
1个回答
是的,这是一种数据泄露形式。测试数据不应以任何方式链接到训练数据。
另一种思考方式是,如果有人尝试用他们自己的测试集复制您的结果,您的测试集是否会给您带来优势,使您的结果通常比他们的更好?
其它你可能感兴趣的问题