我有一组文件,由从数据集中随机选择的点组成,每个文件属于一个特定的类。这些文件中的每一行都包含该点在 n 空间中的坐标。我想比较每个文件在 n 空间中的分布 - 并受到比较直方图的 KS 测试的启发。从我读过的内容来看,这种方法不能很好地扩展到多变量数据。我以前使用过 PCA - 但我所有的方差都折叠成一个嘈杂的维度,并且聚类方法毫无用处。
我的问题 - 是否有理由我不应该只使用每个 n 维的直方图中的 KS 值的平均值作为拟合优度的指标?有没有更好的方法来比较这些分布?
我有一组文件,由从数据集中随机选择的点组成,每个文件属于一个特定的类。这些文件中的每一行都包含该点在 n 空间中的坐标。我想比较每个文件在 n 空间中的分布 - 并受到比较直方图的 KS 测试的启发。从我读过的内容来看,这种方法不能很好地扩展到多变量数据。我以前使用过 PCA - 但我所有的方差都折叠成一个嘈杂的维度,并且聚类方法毫无用处。
我的问题 - 是否有理由我不应该只使用每个 n 维的直方图中的 KS 值的平均值作为拟合优度的指标?有没有更好的方法来比较这些分布?
ROOT支持对高维直方图进行 Kolmogorov 测试,并且注释(对于 2D 版本)表明存在歧义——他们通过下注来处理:双向计算。我不知道代码是否包含更多细节,但评论有时会引用论文等。
注释中还有一些其他有趣的评论TH1::KolmogorovTest
。
我会计算平均值和协方差矩阵联合数据集,然后对单变量量进行K/S检验对零件进行评估。如果 K/S 测试给出零件之间的显着差异,则存在差异。如果没有显着差异,则认为该测试是不确定的。