将一系列分类特征与二元结果相关联

数据挖掘 数据挖掘 数据分析
2022-03-10 06:21:02

我有一个如下所示的数据集:

target,items
1,[i1,i3]
1,[i4,i5,i9]
0,[i1]
...

可变目标是 0-1 结果。特征“项目”是一组项目(可变长度)。每个项目都是一个分类变量(其中之一:i1、i2、..、i_N)。项目之间没有顺序/关系。一个商业示例是“购物车中的一组产品,客户是否放弃购物车的结果”。

数据的大小约为。1,000,000 x 5,000(我有大约 100 万个示例,N 约为 5,000)

我想做以下分析。我想找到影响(或导致)target = 1 的项目。我没有要添加的额外功能。我应该使用哪种类型的统计分析或机器学习建模技术?

1个回答

N有多大?你能把你的数据重塑成类似的东西:

target   i1  i2  i3  i4  i5 ... i9 ... iN
     1    1   0   1   0   0 ...  0 ...  0        
     1    0   0   0   1   1 ...  1 ...  0
     0    1   0   0   0   0 ...  0 ...  0

将所有内容都放入数据框后,您可以使用任何两类监督分类算法来构建模型。一般来说,没有“最佳”模型,但请尝试一些模型,看看哪一个模型最适合您的数据。

很抱歉发布作为答案;评论不允许预先格式化的文本。