挖掘集群的网上商店历史

数据挖掘 数据挖掘 分类 聚类
2022-03-03 08:15:26

我没有数据科学方面的经验,所以这将是这些问题之一......

我有来自超过 100k 购买的数据,这些数据是通过网上商店购买的,涉及大约 100 件商品的目录。平展的购买历史看起来像

Item1 Item2 ... ItemN Sex State
    5     0         0   M    NY
   25    15         0   F    IL
    0     1         1   ?    NY

通过处理数据,我可以推断出简单的事实,例如“90% 的购买包括至少 3 个 Item1”、“如果 Item2 至少有 4 个,则 Item3 很可能是 0”或“60% of all”纽约的顾客是男性,但伊利诺伊州的顾客中只有 40% 是男性。” 考虑到组合和数据的数量,最明显的问题是:如何从上述数据集中提取更多信息?我最感兴趣的是一个项目如何包含或不包含另一个项目......

1个回答

频繁项集挖掘是您要寻找的。你可以看到你的频繁项集的树结构和之后的关联规则。

对于您的数据,我建议您先查看一下整体数据,以了解您手头的数据。如果您可以减小特征的大小,使用概率分布、熵等概念会非常有帮助。

PCA还为您提供了将数据投影到低维空间的机会,您还可以看到以 2-D 或 3-D 形式显示前几台 PC 的图,并获得对数据的印象。

在所有这些之前,我强烈建议您看看您是否有缺失值,如果有,请尝试处理它们。