训练和测试数据分布之间的差异

数据挖掘 机器学习 分类 数据集 图像分类
2021-09-17 16:41:04

机器学习的一个基本假设是训练和测试数据来自同一群体,因此遵循相同的分布。但是,在实践中,这是极不可能的。协变量移位解决了这个问题。有人可以清除以下对此的疑问吗?

如何检查两个分布在统计上是否不同?可以使用核密度估计 (KDE) 来估计概率分布以区分差异吗?假设我有 100 张特定类别的图像。测试图像的数量为 50,我将训练图像的数量以 5 为步长从 5 更改为 50。我可以说使用 5 个训练图像和 50 个测试图像在通过 KDE 估计它们后的概率分布不同吗?

2个回答

Kullbak-Liebler是衡量两个概率分布之间差异的好方法您必须考虑到分布已集成为一个。您还必须考虑到它不是距离,因为它不是对称的。KL(A,B) 不等于 KL(B,A)

如果您正在使用大型数据集。训练集和测试集的分布可能并没有太大的不同。理论上,“大数定律”确保分布保持不变。对于较小的数据集,这可能是处理分布的好点。正如 Hoap Humanoid 所说,“Kullbak-Liebler”可用于找出两组分布的差异。