不打算解决集群问题,因为它已在其他答案中得到解决,但是:
通常,检验两个样本是否有意义不同的问题称为双样本检验。
通过进行检验,您可以严格限制您正在寻找的差异类型(正态分布之间的均值差异)。还有其他测试可以检查更一般类型的距离:Wilcoxon-Mann-Whitney 用于随机排序,Kolmogorov-Smirnov 用于一维的一般差异,最大平均差异或任意输入空间上的一般差异的等效能量距离,或很多其他的选择。这些测试中的每一个都更擅长检测某些类型的差异,有时很难推断它们在检测方面的好坏,或者解释超出值的结果。tp
如果您从分类器中构建两个样本测试,例如Lopez-Paz 和 Oquab (2017)最近提出的那样,则可能更容易考虑其中的一些问题。程序如下:
- 将您的观察和分别分成两部分,和,和。XYXtrainXtestYtrainYtest
- 训练分类器以区分和。XtrainYtrain
- 将分类器的输出应用于和。XtestYtest
- 计算它的预测正确的次数得到。应用二项式检验来区分空和。如果,那么这两个分布是不同的。p^p=12p≠12p≠12
通过检查学习的分类器,您还可以以半有意义的方式解释分布之间的差异。通过更改您考虑的分类器系列,您还可以帮助指导测试以寻找某些类型的差异。
请注意,进行训练测试拆分很重要:否则,只记住其输入的分类器将始终具有完美的可辨别性。增加训练集中点的比例可以让你有更多的数据来学习一个好的分类器,但更少的机会来确保分类准确度真的不同于偶然性。这种权衡会因问题和分类器系列而异,并且尚未被充分理解。
Lopez-Paz 和 Oquab 在一些问题上展示了这种方法的良好经验表现。拉姆达斯等人。(2016)还表明,从理论上讲,一种密切相关的方法对于一个特定的简单问题是速率最优的。在这种情况下要做的“正确”事情是一个积极研究的领域,但如果您想要更多的灵活性和可解释性而不是仅仅应用一些现成的标准测试,那么这种方法至少在许多情况下是合理的。