我想使用词袋模型将一个句子与其他句子进行比较。假设我的比较句是:
我在踢足球
还有另外三个句子我想比较我的比较句。他们是:
1. 我在打板球
2. 你为什么打板球
3. 我喜欢在学校打板球
现在,如果我通过计数单词将我的比较句子与上述三个句子进行比较,那么数字 1 和数字 2 句子的字数与比较句子的字数相同。那是3(我,我,正在玩)。
现在的问题是,在这种情况下,哪个句子与我的比较句子更相关?根本不涉及语义。
他们说,在我看到的某些地方,在这种情况下返回最短的句子并不那么令人费解。你怎么认为?
我想使用词袋模型将一个句子与其他句子进行比较。假设我的比较句是:
我在踢足球
还有另外三个句子我想比较我的比较句。他们是:
1. 我在打板球
2. 你为什么打板球
3. 我喜欢在学校打板球
现在,如果我通过计数单词将我的比较句子与上述三个句子进行比较,那么数字 1 和数字 2 句子的字数与比较句子的字数相同。那是3(我,我,正在玩)。
现在的问题是,在这种情况下,哪个句子与我的比较句子更相关?根本不涉及语义。
他们说,在我看到的某些地方,在这种情况下返回最短的句子并不那么令人费解。你怎么认为?
这通常是通过仔细选择两件事来完成的:
所以答案是:这取决于相似度得分。像余弦 TFIDF 这样的复杂相似性得分很少产生平局,因此可以选择最高得分。更简单的方法给出 tie,然后合乎逻辑的答案是返回所有被捆绑的句子。