我有一个由 100 个特征组成的数据集,每个特征都是三元的:如果它存在于一个类别中,则值为 -1,如果它不存在,则值为 0,如果它存在于第二个类别中,则值为 1。例如
F1 F2 F3 ... F90 F91 F92 ... F99 F100
0 0 0 ... 1 -1 0 ... 0 -1
0 -1 0 ... -1 0 1 ... 0 0
数据非常稀疏,100 个特征中约有 20 个特征的每行数据的值为 -1 或 1。我想通过热图可视化和树状图找到相似的数据行,但我对是否使用欧几里得距离或城市街区距离感到困惑。我对数据挖掘很陌生,在阅读scipy
页面时,我发现了许多我不知道意味着什么的距离度量。我的数据集类型有一个好的距离度量吗?