基于项目的协同过滤和基于市场的分析之间的基本区别是什么?后者是前者的特例吗?
项目-项目协同过滤与市场购物篮分析
@Antimony 给出了完美的答案。只是想补充一些理论,帮助我理解项目-项目协同过滤和购物篮分析之间的区别;以及这两种方法的应用。
用于执行购物篮分析的算法系列称为关联规则。购物篮分析(或关联规则)和协同过滤回答了根本不同的问题。协同过滤可以回答“与你有相似兴趣的用户喜欢哪些商品?”的问题。(图 1),而关联规则回答了一个问题“哪些项目经常一起出现?” 第一个问题的答案可用于向您推荐产品、视频、餐厅、酒店或任何其他您以前没有看过并且已经被一群与您有相似兴趣的其他用户欣赏的内容。兴趣相似度可以通过显性指标来估计,例如你和一群其他用户对同一个产品给出了相同的评分,或者是隐性指标,例如,您和他们购买了相同的产品。协同过滤应用广泛用于构建推荐系统。然而,当有丰富的用户偏好或行为历史时,协同过滤是最有效的。
同时,关联规则可以根据您购物篮中当前的一组产品向您推荐您很可能购买的产品(图 2)。例如,如果您购买汉堡和薯条,您可能会想要苏打水;或者一个非常有名的例子,那些买尿布的人也倾向于买啤酒。关联规则独立于个人偏好配置文件,并且为了挖掘它们,您需要来自所有用户的交易数据集。关联规则和购物篮分析通常用作探索性工具来挖掘有限数量的最常见规则,然后人类可以对其进行分析。然而,关联规则也可以用于构建推荐系统。
图 1 协同过滤示意图。来源 -维基百科
图 2. 关联规则的简单说明。
一个很好的问题!我能想到的一个微不足道的区别是市场篮子 (MB) 分析分别考虑每个篮子。因此,如果您每个月一起购买一次相同的东西,则每次它构成一个不同的篮子,并且每次它可能还包含不同的物品。然而,协同过滤 (CF) 考虑了每个用户聚合的购物篮。所以不管买多少次啤酒和尿布一起买,还是算一票买啤酒,一票买尿布。
其他差异更具技术性,例如您为每个差异测量的内容。在 MB 中,您关心支持度和置信度值,而在 CF 中,您关心的是相似性度量,例如余弦相似度。这是一个对称的度量。啤酒和尿布之间的相似性与尿布和啤酒之间的相似性相同,但支持/信心并非如此。
在概念层面上,CF 可能会想出更多的间接相似之处,例如如果您购买了商品 1,它会发现商品 2 是与之一起购买的,并且商品 3 和商品 4 与商品 2 相似。然后它可以推荐它们,即使它们不是与第 1 项一起购买的,也可以与第 2 项一起购买。