机器算法验证 - 如何进行“啤酒和尿布”相关性分析 - 吾爱随笔录 - 问答

如何进行“啤酒和尿布”相关性分析

机器算法验证相关性计量经济学 Python 互相关

2022-04-07 02:42:12

我的数据相当于：

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

我想对这个数据集进行一些分析，以获得一个相关矩阵，其含义类似于：如果你买了 x，你很可能会买 y。

使用 python（或者除了 MATLAB 之外的任何东西），我该怎么做呢？一些基本准则或指向我应该查看的位置的指针会有所帮助。

谢谢，

编辑 - 我学到了什么：

这些类型的问题被称为关联规则发现。维基百科有一篇很好的文章，涵盖了一些常见的算法。这样做的经典算法似乎是 Apriori，由于 Agrawal 等。人。
这让我想到了orange，一个 python 接口的数据挖掘包。对于 Linux，最好的安装方式似乎是使用提供的 setup.py 从源代码
Orange 默认情况下从文件中读取输入，以多种支持的方式之一进行格式化。
最后，一个简单的 Apriori 关联规则学习是简单的橙色。

1个回答

除了评论中给出的链接之外，这里还有一些进一步的指示：

关联规则和频繁项集
频繁模式挖掘调查——查看表 1，p。4

关于 Python，我想你现在已经知道你应该寻找什么了，但是Orange数据挖掘包具有一个关于关联规则和项集的包（尽管对于后者，我在网站上找不到任何参考资料）。

编辑：

我最近遇到了pysuggest这是

一个实现了多种推荐算法的Top-N推荐引擎。Top-N推荐系统是一种个性化的信息过滤技术，用于识别一组N个项目，这些项目会引起某个用户的兴趣。近年来，top-N 推荐系统已被用于许多不同的应用中，例如推荐客户最有可能购买的产品；推荐用户喜欢的电影、电视节目或音乐；识别感兴趣的网页；甚至建议搜索信息的替代方式。

其它你可能感兴趣的问题

上一篇我该如何测试H0：σ21=σ22H0:σ12=σ22? 下一篇lm() 中如何处理零值？