数据挖掘 - 用于评估文本连贯性的 Python 包 - 吾爱随笔录

数据挖掘 Python nlp

2022-02-27 18:18:27

我正在寻找一个 python 包，它可以计算自然文本的一个句子跟随下一个句子的程度。可以简单地计算下一个句子中有多少相同的词，但更好的方法是使用词向量（=语义相似的词而不是精确匹配或同义词）来比较词的相似性。

相干：

Tom loves reading books.
He prefers reading books at library.
So he always goes to library.

不连贯：

Tom loves reading books.
He missed his lunch today.
So he always goes to library.

我想这种自动评估（或类似方法）必须有几个写得很好的包，但我就是找不到。有任何想法吗？

1个回答

这个任务看起来类似于所谓的文本分割，特别是主题分割。我不知道任何 python 包可以做到这一点，但显然谷歌为“语义文本分割 python”提供了一些很好的结果（我不确定这是最好的短语，你可能想尝试变体）。

注意：据我所知，这仍然是一个活跃的 NLP 研究课题。我不知道编写可靠的 python 包的速度有多快，也许有一些为此，但如果现阶段只有研究原型可用，我不会太惊讶。

其它你可能感兴趣的问题