一个 CSV 文件的特征是一个标题,描述了即将到来的 n 个数据行。标头是由分隔符分隔的文本字符串。CSV 标头可能看起来像 (C1)
Date;Time;ZIP-Code;Address;Temperature
假设我们有第二个具有这种结构的 CSV 文件 (C2):
Date;ZIP-Code;Address;Temperature
C1和C2相似,但又不一样:C2缺少“时间”
假设另一个 C3:
Time;Date;Address;ZIP-Code;Temperature
这里存在与 C1 中相同的项目,但顺序不同。
我所追求的是一个指标,它会给我两组之间的相似性,包括这两组项目的相对接近程度。换句话说,如果一个集合中项目的顺序不同,但基数相同,则与不同基数相比,相似度值应该更大,或者如果基数相同但项目本身不同。
我想出了这个初步的心理测量。我可以在矩阵中绘图
Date;Time;ZIP-Code;Address;Temperature
Date 1
Time 1
ZIP-Code 1
Address 1
Temperature 1
Date;Time;ZIP-Code;Address;Temperature
Time 0 1 0 0 0
ZIP-Code 0 0 1 0 0
Address 0 0 0 1 0
Temperature 0 0 0 0 1
Date;Time;ZIP-Code;Address;Temperature
Temperature 0 0 0 0 1
Address 0 0 0 1 0
ZIP-Code 0 0 1 0 0
Time 0 1 0 0 0
Date 1 0 0 0 0
Date;Time;ZIP-Code;Address;Temperature
Head1 0 0 0 0 0
Head2 0 0 0 0 0
Head3 0 0 0 0 0
Head4 0 0 0 0 0
我的相似感是“矩阵中的结构/模式越多”,两个 CSV 标题就越相似。
我想知道是否有像 Dice-Distance、Cosine-Similarity、Jaccard-Index 这样的度量值会有所帮助?