确定频繁共现的方法

数据挖掘 聚类 推荐系统
2022-03-07 09:34:45

给定一组购买记录,我想找出哪些产品经常一起购买。逻辑 PCA 是实现这一目标的明智方法吗?有没有为此目的的聚类方法?我将不胜感激任何可以帮助解决此问题的方法的指针。

2个回答

这通常被称为“市场篮子分析”或关联挖掘。这个想法是找到购买的产品的共同出现。那里有很多很好的教程/解决方案/包,所以你应该很容易获得一个好的开始。

确定经常一起购买的产品对不同于聚类。例如,如果产品 A 和 B 经常一起购买,并且产品 B 和 C 也经常一起购买,那么即使 A 和 C 不经常一起购买,A 和 C 也可能属于同一个集群。没有传递性,所以一般来说这不是一个很好的集群案例,而不是“类似的产品”。

如果目标实际上是“经常一起购买”,则可以直接使用联合频率或使用统计关联的度量(例如Pointwise Mutual Information )从共现矩阵中直接完成。后者考虑了条件概率,即如果产品 A 经常与产品 B 一起购买,但产品 B 也经常与许多其他产品一起购买,则它的 PMI 会低于某些频率较低但更“排他性”的产品”。