我没有数据科学方面的经验,所以这将是这些问题之一......
我有来自超过 100k 购买的数据,这些数据是通过网上商店购买的,涉及大约 100 件商品的目录。平展的购买历史看起来像
Item1 Item2 ... ItemN Sex State
5 0 0 M NY
25 15 0 F IL
0 1 1 ? NY
通过处理数据,我可以推断出简单的事实,例如“90% 的购买包括至少 3 个 Item1”、“如果 Item2 至少有 4 个,则 Item3 很可能是 0”或“60% of all”纽约的顾客是男性,但伊利诺伊州的顾客中只有 40% 是男性。” 考虑到组合和数据的数量,最明显的问题是:如何从上述数据集中提取更多信息?我最感兴趣的是一个项目如何包含或不包含另一个项目......