文本文章的可行距离度量

机器算法验证 文本挖掘 距离函数
2022-04-10 14:29:55

我有一个文章列表、一个词/词干域和一个为它们计算的 tf-idf 矩阵。当我尝试计算两个文档的相似度时,我应该使用什么距离度量?

2个回答

我对处理文档知之甚少,但 Hinton 和 Salakhutdinov 采用了一种有趣的文档处理方法,可以在这篇论文中找到(也可以在这个Google Tech Talk中找到)。他们使用自动编码器将文档压缩为低维实值向量。这些文档在这个转换后的空间中似乎聚集得相当好,所以我可以想象,即使是欧几里德度量也可以给出一些不错的结果。通过对文档表示进行二值化(如演讲中所述)和使用汉明距离可能会获得更好的结果。

看看这篇论文:文本相似性:搜索 MEDLINE 的另一种方法

他们将简单的余弦相似度与修改后的版本以及一些基于文本对齐的更复杂的方法进行比较。结论是带有小修改的余弦相似度表现最好,尽管仅略好于标准余弦相似度。请注意,这是在医学背景下,但这无关紧要。

还有经常使用的Okapi BM25相似性度量,也可能值得一看。