如何进行“啤酒和尿布”相关性分析

机器算法验证 相关性 计量经济学 Python 互相关
2022-04-07 02:42:12

我的数据相当于:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

我想对这个数据集进行一些分析,以获得一个相关矩阵,其含义类似于:如果你买了 x,你很可能会买 y。

使用 python(或者除了 MATLAB 之外的任何东西),我该怎么做呢?一些基本准则或指向我应该查看的位置的指针会有所帮助。

谢谢,

编辑 - 我学到了什么:

  1. 这些类型的问题被称为关联规则发现。维基百科有一篇很好的文章,涵盖了一些常见的算法。这样做的经典算法似乎是 Apriori,由于 Agrawal 等。人。

  2. 这让我想到了orange,一个 python 接口的数据挖掘包。对于 Linux,最好的安装方式似乎是使用提供的 setup.py 从源代码

  3. Orange 默认情况下从文件中读取输入,以多种支持的方式之一进行格式化。

  4. 最后,一个简单的 Apriori 关联规则学习是简单的橙色。

1个回答

除了评论中给出的链接之外,这里还有一些进一步的指示:

关于 Python,我想你现在已经知道你应该寻找什么了,但是Orange数据挖掘包具有一个关于关联规则和项集的包(尽管对于后者,我在网站上找不到任何参考资料)。

编辑:

我最近遇到了pysuggest这是

一个实现了多种推荐算法的Top-N推荐引擎。Top-N推荐系统是一种个性化的信息过滤技术,用于识别一组N个项目,这些项目会引起某个用户的兴趣。近年来,top-N 推荐系统已被用于许多不同的应用中,例如推荐客户最有可能购买的产品;推荐用户喜欢的电影、电视节目或音乐;识别感兴趣的网页;甚至建议搜索信息的替代方式。