在训练集和测试集中使用同一个人的样本是否被认为是数据泄漏?

数据挖掘 神经网络 数据泄露
2022-02-22 15:56:17

假设通过使用 1000 个人的数据集并且每个人有十张他的脸的图像,为一个二元分类问题(例如识别人脸是否为笑脸)构建了一个神经网络。如果数据集以 70:30 的比例随机溢出到 trainset 和 testset 中,在这种情况下,很有可能同一个人的人脸图像将同时用于 trainset 和 testset,所以这被认为是数据泄漏(火车测试污染)?

1个回答

是的,这是一种数据泄露形式。测试数据不应以任何方式链接到训练数据。

另一种思考方式是,如果有人尝试用他们自己的测试集复制您的结果,您的测试集是否会给您带来优势,使您的结果通常比他们的更好?