数据挖掘 - 通过高维向量比较进行分组相似度 - 吾爱随笔录

数据挖掘相似

2022-03-04 15:00:54

我有一个包含 256 行、61 列/变量的数据集。每一行都应该被认为是一个维度为 61 的向量。如果我将它随机分成 2 组，我怎么能证明这 2 组是相似的？数据的来源是生物医学，非线性方法应该是更可取的。

2个回答

您实际上无法证明这两个组是相似的，但您可以建立一个置信水平/阈值。此外，如果两个组中只有一个包含强异常值，则这两个组可能不相似（取决于您的相似性阈值）。

也就是说，您可以根据有关基础数据分布的假设进行比较。例如，如果可以假设数据分布为多元正态分布，则可以使用Hotelling 的双样本 T 方统计量（学生 t 检验的多元泛化）来检验置信区间。

还有其他最近的方法，例如专为解决此类问题而设计的主要差异分析。我不确定该方法是否可以作为 R 包提供，您可以从手稿中获得概念/算法。见http://arxiv.org/abs/1510.08956

其它你可能感兴趣的问题