我的问题可能很愚蠢。所以我要提前道歉。
我试图使用斯坦福 NLP 小组(链接)预训练的 GLOVE 模型。但是,我注意到我的相似性结果显示了一些负数。
这立即促使我查看词向量数据文件。显然,词向量中的值被允许为负数。这解释了为什么我看到负余弦相似性。
我习惯了频率向量的余弦相似度的概念,其值在 [0, 1] 内。我知道点积和余弦函数可以是正数或负数,具体取决于向量之间的角度。但我真的很难理解和解释这种负余弦相似度。
例如,如果我有一对相似度为 -0.1 的词,它们的相似度是否低于相似度为 0.05 的另一对词?比较 -0.9 和 0.8 的相似度怎么样?
或者我应该只看最小角度差的绝对值? 分数的绝对值?
非常感谢。