假设您有两个多元数据集,例如一个旧数据集和一个新数据集,并且它们应该是由相同的过程(您没有模型)生成的,但也许是在收集/创建的某个地方数据,出事了。您不希望将新数据用作旧数据的验证集或添加到旧数据中。
你可以做一堆一维统计数据(每个变量),例如 Wilcoxon 秩和,并尝试一些多重测试校正,但我不确定这是最佳的(捕捉多变量数据的复杂性,更不用说多测试问题了)。一种方法是使用分类器,看看您是否可以区分两个数据集(给定一个最优的分类器)。这似乎确实有效,但仍然 a) 可能有更好的方法 b) 它并不是真的旨在告诉你它为什么不同(如果没有别的,它会使用最好的预测器,并且可能会错过其他被更好的预测器包含的好的预测器)