跨不同数据集的移位特征分布

数据挖掘 分类 数据集 分配
2022-03-05 18:49:21

我正在尝试使用两个不同的训练和测试数据集来验证分类器。

我正在考虑的特征是在两个原始特征之间进行折叠变化的特征,即log2(featA/featb)

问题是,在两个不同的数据集中,我看到不同组之间的倍数变化分布相同,但值不同。在所附图像中查看不同数据集(每个图)中每个组(每个框)的值。

第一的 第二

什么可能导致倍数变化的差异?在这种情况下,折叠变化的符号也不同,这意味着虽然在一个数据集中大于,但对于另一个数据集则相反。但是,两组(每个图中的两个框)之间的成对关系保持不变。featafeatb

我正在考虑跨不同数据集的每个特征的不同归一化程序,这可以解释折叠变化分布的变化。这些数据集中可能还有哪些其他问题?

1个回答

如果地块被标记,会更容易理解。尽管如此,我想我理解这个问题,也许这只是抽样错误。为什么你有两对不同的训练和测试数据?它们来自不同的来源吗?在这种情况下,您可能不想在两者上使用相同的分类器。另外,使用两个不同的训练集和测试集“验证”是什么意思?分类器在训练集上进行训练,并在测试集上进行验证,你的意思是你在两个不同的训练/测试对上进行验证?