在信息检索中,当我们计算查询特征向量和文档特征向量之间的余弦相似度时,我们会惩罚查询中看不见的单词。
例如,如果我们有两个具有特征向量的文档
d1 = [1,1,1,0,0]
d2 = [0,1,1,1,0]
我们可以看到两个文档有第二个特征,所以如果我们想用查询向量搜索第二个特征:q = [0,1,0,0,0] 那么 q 和 d1,d2 之间的余弦相似度将是,而不是 1,因为我们惩罚了查询中未提及的其他特征。
从这个讨论中我不明白为什么惩罚它是一个好主意。
- 惩罚看不见的功能好吗?
- 是否有另一种不会惩罚他们的相似性度量?