用于评估文本连贯性的 Python 包

数据挖掘 Python nlp
2022-02-27 18:18:27

我正在寻找一个 python 包,它可以计算自然文本的一个句子跟随下一个句子的程度。可以简单地计算下一个句子中有多少相同的词,但更好的方法是使用词向量(=语义相似的词而不是精确匹配或同义词)来比较词的相似性。

相干:

Tom loves reading books.
He prefers reading books at library.
So he always goes to library.

不连贯:

Tom loves reading books.
He missed his lunch today.
So he always goes to library.

我想这种自动评估(或类似方法)必须有几个写得很好的包,但我就是找不到。有任何想法吗?

1个回答

这个任务看起来类似于所谓的文本分割,特别是主题分割我不知道任何 python 包可以做到这一点,但显然谷歌为“语义文本分割 python”提供了一些很好的结果(我不确定这是最好的短语,你可能想尝试变体)。

注意:据我所知,这仍然是一个活跃的 NLP 研究课题。我不知道编写可靠的 python 包的速度有多快,也许有一些为此,但如果现阶段只有研究原型可用,我不会太惊讶。