我有一个如下所示的数据集:
target,items
1,[i1,i3]
1,[i4,i5,i9]
0,[i1]
...
可变目标是 0-1 结果。特征“项目”是一组项目(可变长度)。每个项目都是一个分类变量(其中之一:i1、i2、..、i_N)。项目之间没有顺序/关系。一个商业示例是“购物车中的一组产品,客户是否放弃购物车的结果”。
数据的大小约为。1,000,000 x 5,000(我有大约 100 万个示例,N 约为 5,000)
我想做以下分析。我想找到影响(或导致)target = 1 的项目。我没有要添加的额外功能。我应该使用哪种类型的统计分析或机器学习建模技术?