比较文本时,如果有多个匹配项,应该返回哪个短语?

数据挖掘 文本挖掘 文本 词袋
2022-02-17 05:01:29

我想使用词袋模型将一个句子与其他句子进行比较。假设我的比较句是:

我在踢足球

还有另外三个句子我想比较我的比较句。他们是:

1. 我在打板球

2. 你为什么打板球

3. 我喜欢在学校打板球

现在,如果我通过计数单词将我的比较句子与上述三个句子进行比较,那么数字 1 和数字 2 句子的字数与比较句子的字数相同。那是3(我,我,正在玩)。

现在的问题是,在这种情况下,哪个句子与我的比较句子更相关?根本不涉及语义。

他们说,在我看到的某些地方,在这种情况下返回最短的句子并不那么令人费解。你怎么认为?

1个回答

这通常是通过仔细选择两件事来完成的:

  • 句子表示。字数统计是最简单的选项,但还有很多其他选项:TFIDF 权重、带/不删除停用词、带/不带词形还原等。在 DL 方法中,句子将表示为句子嵌入。
  • 两个句子之间的相似性度量。同样有很多选择,在 BoW 方法中,标准方法将包括计算共同的单词(例如 Jaccard)和余弦 TFIDF。

所以答案是:这取决于相似度得分。像余弦 TFIDF 这样的复杂相似性得分很少产生平局,因此可以选择最高得分。更简单的方法给出 tie,然后合乎逻辑的答案是返回所有被捆绑的句子。