与用户偏好的文档相似性

数据挖掘 相似 tfidf 余弦距离 类似文件 语义相似性
2022-03-01 20:46:12

要测量两个文档之间的相似度,可以使用例如 TF-IDF/余弦相似度。假设在计算与Doc A文档列表 ( Doc B, Doc C,...) 的相似度得分后,我们得到:

文件对 相似度得分
文档 A 与文档 B 0.45
文档 A 与文档 C 0.30
文档 A 与... ...

当然,Doc B就相似性而言,似乎是最接近的,对于Doc A. 但是,如果用户作为人类认为Doc C 应该被选为最接近的呢?也就是说,我们如何考虑用户偏好,以便稍后如果用户再次运行算法,得分Doc A vs. Doc C将高于Doc A vs. Doc B简单来说,除了计算 TF-IDF/余弦相似度外,该算法还考虑了用户的选择历史,并提出最Doc满足特定用户的选择。

除了 TF-IDF/余弦相似度之外,我对任何技术都持开放态度。如果还有一些现成的实现,例如在 Python 中,那就太好了。

1个回答

这是两个不同的东西:

  • 文档相似度仅基于文档
  • 以前的用户选择可以用来训练推荐系统,或者简单地以基于规则的方式应用。

两者可以结合在一个特定于用户的推荐系统中,但请注意,用户的选择不一定一致,即使对于单个用户也是如此。这就是为什么不能假定所选选项意味着“更相似的文档”。