TF-IDF 的替代品

数据挖掘 张量流 文本挖掘 相似 tfidf
2022-03-05 01:20:47

我曾使用 TF-IDF 进行文本相似性,但结果不是很好。我试图实现谷歌通用编码(tensorflow hub)结果令人满意,但不达标。

还有其他替代方法吗?

每个文本的大小约为 50-70 个单词。

PS - TF-IDF 结果比 Doc2Vec 好得多。

编辑1:当我说“不达标”时,它意味着两个句子的语义相似性。两个句子在含义上相似,尽管它几乎没有相似的确切词。

1个回答

通用编码和 TF-IDF 是两种不同的野兽。我假设您的意思是由 TF-IDF 转换的向量空间模型。无论哪种方式:都不要直接告诉您两个文本的相似性是什么。通常你会使用余弦距离之类的东西来做到这一点。

对于 VSM,有许多技术可以对其进行转换。仅举几例:Rocchio 转换、LDA/LSI、词干提取、停止(或过滤计数和文档计数)。

听起来您遇到了稀疏问题:Rocchio 和 LDA 可以提供帮助。并且不要忘记一些不太优雅的技术,在这些技术中,您可以使用同义词列表来转换单词。