我一直在玩 Kaggle 比赛,发现有训练集和测试集的分布不同的情况,所以我想知道如何检查训练集和测试集的分布是否相似。
我搜索它并找到一个博客,通过将其转换为二进制分类问题来检查分布的相似性。如果AUC 很高,那么训练集和测试集的分布肯定是不同的。他给出的想法如下:
如果存在协变量偏移,那么在混合训练和测试时,我们仍然能够以良好的准确度对每个数据点的来源(无论是来自测试还是训练)进行分类。
但是我还是不明白为什么他可以用这种方式检查这两个分布的相似性。
还有其他方法可以检查它的相似性吗?
如果有人可以帮助我,我们将不胜感激。