数据挖掘 - 将一系列分类特征与二元结果相关联 - 吾爱随笔录

我有一个如下所示的数据集：

target,items
1,[i1,i3]
1,[i4,i5,i9]
0,[i1]
...

可变目标是 0-1 结果。特征“项目”是一组项目（可变长度）。每个项目都是一个分类变量（其中之一：i1、i2、..、i_N）。项目之间没有顺序/关系。一个商业示例是“购物车中的一组产品，客户是否放弃购物车的结果”。

数据的大小约为。1,000,000 x 5,000（我有大约 100 万个示例，N 约为 5,000）

我想做以下分析。我想找到影响（或导致）target = 1 的项目。我没有要添加的额外功能。我应该使用哪种类型的统计分析或机器学习建模技术？