计算科学 - 两个 CSV 文件的相似性（或更多？） - 吾爱随笔录

一个 CSV 文件的特征是一个标题，描述了即将到来的 n 个数据行。标头是由分隔符分隔的文本字符串。CSV 标头可能看起来像 (C1)

Date;Time;ZIP-Code;Address;Temperature

假设我们有第二个具有这种结构的 CSV 文件 (C2)：

Date;ZIP-Code;Address;Temperature

C1和C2相似，但又不一样：C2缺少“时间”

假设另一个 C3：

Time;Date;Address;ZIP-Code;Temperature

这里存在与 C1 中相同的项目，但顺序不同。

我所追求的是一个指标，它会给我两组之间的相似性，包括这两组项目的相对接近程度。换句话说，如果一个集合中项目的顺序不同，但基数相同，则与不同基数相比，相似度值应该更大，或者如果基数相同但项目本身不同。

我想出了这个初步的心理测量。我可以在矩阵中绘图

             Date;Time;ZIP-Code;Address;Temperature
Date           1 
Time                1
ZIP-Code                    1
Address                            1
Temperature                                 1


             Date;Time;ZIP-Code;Address;Temperature
Time           0    1     0         0       0
ZIP-Code       0    0     1         0       0
Address        0    0     0         1       0
Temperature    0    0     0         0       1


             Date;Time;ZIP-Code;Address;Temperature
Temperature    0    0      0       0        1
Address        0    0      0       1        0
ZIP-Code       0    0      1       0        0
Time           0    1      0       0        0
Date           1    0      0       0        0



             Date;Time;ZIP-Code;Address;Temperature
Head1           0   0       0       0       0
Head2           0   0       0       0       0
Head3           0   0       0       0       0
Head4           0   0       0       0       0

我的相似感是“矩阵中的结构/模式越多”，两个 CSV 标题就越相似。

我想知道是否有像 Dice-Distance、Cosine-Similarity、Jaccard-Index 这样的度量值会有所帮助？