我有一个包含 256 行、61 列/变量的数据集。每一行都应该被认为是一个维度为 61 的向量。如果我将它随机分成 2 组,我怎么能证明这 2 组是相似的?数据的来源是生物医学,非线性方法应该是更可取的。
通过高维向量比较进行分组相似度
数据挖掘
相似
2022-03-04 15:00:54
2个回答
您实际上无法证明这两个组是相似的,但您可以建立一个置信水平/阈值。此外,如果两个组中只有一个包含强异常值,则这两个组可能不相似(取决于您的相似性阈值)。
也就是说,您可以根据有关基础数据分布的假设进行比较。例如,如果可以假设数据分布为多元正态分布,则可以使用Hotelling 的双样本 T 方统计量(学生 t 检验的多元泛化)来检验置信区间。
还有其他最近的方法,例如专为解决此类问题而设计的主要差异分析。我不确定该方法是否可以作为 R 包提供,您可以从手稿中获得概念/算法。见http://arxiv.org/abs/1510.08956
其它你可能感兴趣的问题