数据挖掘 - TF-IDF 的替代品 - 吾爱随笔录

数据挖掘张量流文本挖掘相似 tfidf

2022-03-05 01:20:47

我曾使用 TF-IDF 进行文本相似性，但结果不是很好。我试图实现谷歌通用编码（tensorflow hub）。结果令人满意，但不达标。

还有其他替代方法吗？

每个文本的大小约为 50-70 个单词。

PS - TF-IDF 结果比 Doc2Vec 好得多。

编辑1：当我说“不达标”时，它意味着两个句子的语义相似性。两个句子在含义上相似，尽管它几乎没有相似的确切词。

1个回答

通用编码和 TF-IDF 是两种不同的野兽。我假设您的意思是由 TF-IDF 转换的向量空间模型。无论哪种方式：都不要直接告诉您两个文本的相似性是什么。通常你会使用余弦距离之类的东西来做到这一点。

对于 VSM，有许多技术可以对其进行转换。仅举几例：Rocchio 转换、LDA/LSI、词干提取、停止（或过滤计数和文档计数）。

听起来您遇到了稀疏问题：Rocchio 和 LDA 可以提供帮助。并且不要忘记一些不太优雅的技术，在这些技术中，您可以使用同义词列表来转换单词。

其它你可能感兴趣的问题