我对现代/最先进的词袋信息检索方法的概述感兴趣,您可以在其中进行单个查询以及一组您希望按相关性排序的文档.
我对完全不需要语言知识并且不依赖外部语言或词汇资源来提高性能的方法特别感兴趣(例如叙词表或预建的词网等)。因此,排名完全是通过评估查询文档的相似性来产生的,并且通过利用文档间单词的共现来克服同义词和多义性的问题。
我在文献(阅读论文/教程)上花了一些时间,但是那里的信息太多了,很难鸟瞰。我能得出的最好结论是,现代方法涉及加权向量空间模型(例如广义向量空间模型、LSI 或使用 LDA 的基于主题的向量空间模型)与伪相关反馈的某种组合(使用 Rocchio 或更高级的方法)。
所有这些向量空间模型都倾向于使用余弦相似度作为相似度函数,但是我看到一些文献讨论了更奇特的相似度函数。
这基本上是我们目前解决这种特殊类型问题的地方吗?