数据挖掘 - 在训练集和测试集中使用同一个人的样本是否被认为是数据泄漏？ - 吾爱随笔录

在训练集和测试集中使用同一个人的样本是否被认为是数据泄漏？

数据挖掘神经网络数据泄露

2022-02-22 15:56:17

假设通过使用 1000 个人的数据集并且每个人有十张他的脸的图像，为一个二元分类问题（例如识别人脸是否为笑脸）构建了一个神经网络。如果数据集以 70:30 的比例随机溢出到 trainset 和 testset 中，在这种情况下，很有可能同一个人的人脸图像将同时用于 trainset 和 testset，所以这被认为是数据泄漏（火车测试污染）？

1个回答

是的，这是一种数据泄露形式。测试数据不应以任何方式链接到训练数据。

另一种思考方式是，如果有人尝试用他们自己的测试集复制您的结果，您的测试集是否会给您带来优势，使您的结果通常比他们的更好？

其它你可能感兴趣的问题

上一篇数据科学与算法开发的区别下一篇在序列模型中使用填充时，Keras 验证准确性是否有效/可靠？