我曾使用 TF-IDF 进行文本相似性,但结果不是很好。我试图实现谷歌通用编码(tensorflow hub)。结果令人满意,但不达标。
还有其他替代方法吗?
每个文本的大小约为 50-70 个单词。
PS - TF-IDF 结果比 Doc2Vec 好得多。
编辑1:当我说“不达标”时,它意味着两个句子的语义相似性。两个句子在含义上相似,尽管它几乎没有相似的确切词。
我曾使用 TF-IDF 进行文本相似性,但结果不是很好。我试图实现谷歌通用编码(tensorflow hub)。结果令人满意,但不达标。
还有其他替代方法吗?
每个文本的大小约为 50-70 个单词。
PS - TF-IDF 结果比 Doc2Vec 好得多。
编辑1:当我说“不达标”时,它意味着两个句子的语义相似性。两个句子在含义上相似,尽管它几乎没有相似的确切词。
通用编码和 TF-IDF 是两种不同的野兽。我假设您的意思是由 TF-IDF 转换的向量空间模型。无论哪种方式:都不要直接告诉您两个文本的相似性是什么。通常你会使用余弦距离之类的东西来做到这一点。
对于 VSM,有许多技术可以对其进行转换。仅举几例:Rocchio 转换、LDA/LSI、词干提取、停止(或过滤计数和文档计数)。
听起来您遇到了稀疏问题:Rocchio 和 LDA 可以提供帮助。并且不要忘记一些不太优雅的技术,在这些技术中,您可以使用同义词列表来转换单词。