数据挖掘 - 最先进的无监督文档相似度 - 吾爱随笔录

我有一组 N 个文档，长度从 0 到超过 20000 个字符。我想计算所有文档对之间的相似度分数在 0 和 1 之间，数字越大表示相似度越高。下面假设部署监督模型是不可行的，因为资源限制不一定与数据科学相关（收集标签很昂贵，基础设施无论出于何种原因都不能用于监督模型等）。

我考虑过的方法：

tf-idf
平滑逆频率 (SIF) 嵌入及其发展（uSIF、p-SIF）。https://openreview.net/pdf?id=SyK00v5xx https://www.aclweb.org/anthology/W18-3012/ https://arxiv.org/abs/2005.09069
BERT 或类似 bert 的嵌入，例如https://arxiv.org/abs/2010.06467
文档表示的分层最优传输 (HOTT)：https ://papers.nips.cc/paper/2019/hash/8b5040a8a5baf3e0e67386c2e3a9b903-Abstract.html

问题：是否有一种无监督技术已在同行评审的环境中展示，以在长文本（例如，10000 个字符以上）上实现比 HOTT 更高的准确度（或 F1 或类似）？

背景：HOTT 论文用 k-NN 分类器对各种方法进行了基准测试，并表明 HOTT 表现最好，但并不明显优于 tf-idf（HOTT 的归一化误差为 0.52，tf-idf 的归一化误差为 0.66）。请注意，虽然 HOTT 算法是无监督的，但论文中的数据集已被标记，否则将无法进行基准测试。SIF 论文主要处理不是长文本的 STS 数据集。p-SIF 在 Reuters 数据集上有一个基准，但使用了 SVM 监督方法。有趣的是，HOTT 论文发现 SIF 在 k-NN 方法中表现不佳，归一化误差为 0.79。在许多情况下，BERT 需要预训练，如果不需要，它的最大或平均池性能似乎比手套嵌入更差（https://arxiv.org/abs/2010.06467第 114 页）。我也无法找到 Doc2Vec、通用句子编码器 (USE) 的无监督基准。

还有一个问题是如何在获得嵌入后计算相似度（例如，https ://www.aclweb.org/anthology/N19-1100.pdf ），但这超出了这个问题的范围，除非它影响比较在无监督基准之间（例如，k-NN 方法可以使用可能影响准确性的各种距离度量）。

如果 HOTT 中的基准具有代表性并且不存在其他性能明显更好的方法，那么很容易得出结论，即 tf-idf 仍然是一种强大的方法，因为它非常易于实现和理解（它肯定比 HOTT 更简单）。如果是这样的话，鉴于过去 5-10 年的深度学习发展，我认为这是一个了不起的结论。