我有一个处理用户提交的文本文档(通常为 10-100 页)的网站。每次用户提交文档时,我都想存储文档的哈希值,但我希望类似的文档映射到相同的哈希值。我本质上想知道用户是重新提交稍微更改的文档还是新文档。
我不存储文档,所以我只能比较哈希值,而不能相互比较文档。
我已经阅读了大量有关 MinHash 和 LSH 的内容,但这些似乎都是基于拥有大量文档的语料库,然后在语料库中找到类似的文档。我认为这些对我不起作用,因为我需要一次在单个文档上计算我的哈希向量,而无需对其他文档一无所知。
在某些方面,我觉得这应该是一个简单的问题。类似于计算词袋向量的哈希值,但我正在努力寻找一种好方法来做到这一点。
我的比较是基于文本而不是意义,所以我不需要像词嵌入这样的东西。