如何测试两个多元分布是否是从同一个基础总体中抽样的?

机器算法验证 多元分析
2022-03-17 23:19:16

假设您有两个多元数据集,例如一个旧数据集和一个新数据集,并且它们应该是由相同的过程(您没有模型)生成的,但也许是在收集/创建的某个地方数据,出事了。您不希望将新数据用作旧数据的验证集或添加到旧数据中。

你可以做一堆一维统计数据(每个变量),例如 Wilcoxon 秩和,并尝试一些多重测试校正,但我不确定这是最佳的(捕捉多变量数据的复杂性,更不用说多测试问题了)。一种方法是使用分类器,看看您是否可以区分两个数据集(给定一个最优的分类器)。这似乎确实有效,但仍然 a) 可能有更好的方法 b) 它并不是真的旨在告诉你它为什么不同(如果没有别的,它会使用最好的预测器,并且可能会错过其他被更好的预测器包含的好的预测器)

2个回答
http://131.95.113.139/courses/multivariate/mantel.pdf

如果您的数据集大小相同,则讨论两种可能的方法。基本方法是计算两个观察到的矩阵之间的距离度量。然后,要确定该距离是否显着,请使用permutation test

如果您的数据集大小不同,那么您可以使用交叉匹配测试,尽管它似乎不太受欢迎。除了交叉匹配测试,您可以尝试对数据进行向上或向下采样,使它们具有相同的大小,然后使用第一篇论文中提到的方法之一。

查看 Hotelling 的 T^2,或者如果 yoy 有非常高的数据,请查看: http: //normaldeviate.wordpress.com/2012/07/14/modern-two-sample-tests/