我有一组 N 个文档,长度从 0 到超过 20000 个字符。我想计算所有文档对之间的相似度分数在 0 和 1 之间,数字越大表示相似度越高。下面假设部署监督模型是不可行的,因为资源限制不一定与数据科学相关(收集标签很昂贵,基础设施无论出于何种原因都不能用于监督模型等)。
我考虑过的方法:
- tf-idf
- 平滑逆频率 (SIF) 嵌入及其发展(uSIF、p-SIF)。https://openreview.net/pdf?id=SyK00v5xx https://www.aclweb.org/anthology/W18-3012/ https://arxiv.org/abs/2005.09069
- BERT 或类似 bert 的嵌入,例如https://arxiv.org/abs/2010.06467
- 文档表示的分层最优传输 (HOTT):https ://papers.nips.cc/paper/2019/hash/8b5040a8a5baf3e0e67386c2e3a9b903-Abstract.html
问题:是否有一种无监督技术已在同行评审的环境中展示,以在长文本(例如,10000 个字符以上)上实现比 HOTT 更高的准确度(或 F1 或类似)?
背景:HOTT 论文用 k-NN 分类器对各种方法进行了基准测试,并表明 HOTT 表现最好,但并不明显优于 tf-idf(HOTT 的归一化误差为 0.52,tf-idf 的归一化误差为 0.66)。请注意,虽然 HOTT 算法是无监督的,但论文中的数据集已被标记,否则将无法进行基准测试。SIF 论文主要处理不是长文本的 STS 数据集。p-SIF 在 Reuters 数据集上有一个基准,但使用了 SVM 监督方法。有趣的是,HOTT 论文发现 SIF 在 k-NN 方法中表现不佳,归一化误差为 0.79。在许多情况下,BERT 需要预训练,如果不需要,它的最大或平均池性能似乎比手套嵌入更差(https://arxiv.org/abs/2010.06467第 114 页)。我也无法找到 Doc2Vec、通用句子编码器 (USE) 的无监督基准。
还有一个问题是如何在获得嵌入后计算相似度(例如,https ://www.aclweb.org/anthology/N19-1100.pdf ),但这超出了这个问题的范围,除非它影响比较在无监督基准之间(例如,k-NN 方法可以使用可能影响准确性的各种距离度量)。
如果 HOTT 中的基准具有代表性并且不存在其他性能明显更好的方法,那么很容易得出结论,即 tf-idf 仍然是一种强大的方法,因为它非常易于实现和理解(它肯定比 HOTT 更简单)。如果是这样的话,鉴于过去 5-10 年的深度学习发展,我认为这是一个了不起的结论。
没有专门解决这个问题的相关帖子: NLP 中的短文本和长文本(文档相似度) 在比较不同格式的文档时替代 TF-IDF 和余弦相似度 如何测量两个文本文档之间的相似度? 基于主题相似度的聚类文档 文档相似度:向量嵌入与 BoW 性能? Word2Vec - 文档相似度 文档相似度 的词向量加权和 文档 相似度 查询和文档混淆之间的余弦相似度 评估文档相似度/基于内容的推荐系统 使用嵌入来查找文档之间的相似度