有没有办法计算标题和文本内容之间的相关性分数?

数据挖掘 算法 nlp
2022-03-02 16:22:09

我的问题可能听起来有点愚蠢,但我试图想出一种方法来衡量文本标题的相关性,比如一条新闻标题,与内容的相关性。我的想法是使用 word2vec 并尝试余弦相似度。有没有更有效和正确的方法来完成这项任务?

1个回答

Word2Vec 和余弦相似度当然是一个合理的解决方案。请注意,文本越长,文本中的功能词就越多,因此随着文本长度的增加,平均 Word2Vec 向量彼此更相似。这可以通过删除停用词来部分解决。

另一种尝试的方法可能是余弦相似性与来自 ELMo 或 BERT 等上下文嵌入的表示。此外,如果您有一些训练示例(小几百可能就足够了),那么训练基于 BERT 的分类器应该可以工作。

最后,最奇特的解决方案是使用汇总模型。从文章内容生成标题是摘要文献中完成的任务之一。如果您的数据类似于用于训练摘要模型的数据集(或者您有足够的特定于领域的数据来训练自己的摘要模型),则可以使用该模型来估计给定内容的标题概率。即使是在生成时表现不佳的模型,在区分使用时也表现良好。