非基于查询的文档排名

数据挖掘 机器学习 数据挖掘 文本挖掘 信息检索
2022-02-08 10:43:01

我们有大约 500 个生物医学文档,每个文档大约 1-2 MB。我们想使用一种非基于查询的方法来按照文档的唯一内容分数对文档进行排序。我称其为“独特的内容”,因为我们的研究人员想知道从哪个文档开始阅读。所有文档都是同一个主题,在生物医学领域,我们知道总是有很多内容重叠。所以我们要做的就是按照文档的独特内容的顺序排列文档。

大多数信息检索文献都建议基于查询的排名,这不符合我们的需要。

2个回答

您可以使用本文所述的主题建模: http ://faculty.chicagobooth.edu/workshops/orgs-markets/pdf/KaplanSwordWin2014.pdf

他们对专利摘要(限于 150 个字)进行主题建模。如果他们是第一个介绍某个主题的论文,他们将其认定为“新颖”,并通过第二年有多少篇论文使用相同主题来衡量新颖程度。(详细阅读论文)。

我建议你跟随他们的领导,只处理论文摘要。处理每篇论文的正文可能会揭示一些摘要没有的新颖性,但您也会冒着在主题模型中出现更多噪音的风险(即无关主题、无关单词)。

虽然您说所有 500 篇论文都在同一个“主题”上,但说它们都在同一个“主题”或生物医学的同一个“子类别”上可能更安全。主题建模允许将“主题”分解为“主题”。

好消息是有很多很好的主题建模包/库。您仍然需要进行预处理,但您不必自己编写算法代码。有关许多资源,请参阅此页面: http ://www.cs.princeton.edu/~blei/topicmodeling.html

这是一个简单的初始尝试方法:

  1. 计算每个文档中每个单词的TF-IDF分数。
  2. 按单词的平均 TF-IDF 分数对文档进行排序。
  3. 平均 TF-IDF 分数越高,文档相对于集合的其余部分就越独特。

您也可以尝试使用基于聚类的方法来查找异常值,或者使用词袋模型使用Jaccard 索引。