数据挖掘 - 比较文本时，如果有多个匹配项，应该返回哪个短语？ - 吾爱随笔录

数据挖掘文本挖掘文本词袋

2022-02-17 05:01:29

我想使用词袋模型将一个句子与其他句子进行比较。假设我的比较句是：

我在踢足球

还有另外三个句子我想比较我的比较句。他们是：

1. 我在打板球

2. 你为什么打板球

3. 我喜欢在学校打板球

现在，如果我通过计数单词将我的比较句子与上述三个句子进行比较，那么数字 1 和数字 2 句子的字数与比较句子的字数相同。那是3（我，我，正在玩）。

现在的问题是，在这种情况下，哪个句子与我的比较句子更相关？根本不涉及语义。

他们说，在我看到的某些地方，在这种情况下返回最短的句子并不那么令人费解。你怎么认为？

1个回答

这通常是通过仔细选择两件事来完成的：

所以答案是：这取决于相似度得分。像余弦 TFIDF 这样的复杂相似性得分很少产生平局，因此可以选择最高得分。更简单的方法给出 tie，然后合乎逻辑的答案是返回所有被捆绑的句子。

其它你可能感兴趣的问题