我有一个数据集,其中包含客户采取的行动(例如,查看产品、将产品添加到购物车、购买产品)、购买的产品(如果有)和所述行动的时间。我正在尝试使用 K-means 聚类来根据这些操作(减去购买)来识别更有可能购买产品的客户。
我目前正在使用以下方法进行聚类:查看的产品数量、放入购物车的产品数量、动作之间的平均时间、动作之间的时间方差、动作之间时间的标准偏差(所有这些值是标准化的),以及购买的产品(如果有的话)。我得到的集群包含~10%
买家和90%
非买家,但我试图区分买家和非买家。
关于我还能做什么的任何想法?还是我应该完全尝试另一种方法?
插图:x 轴是集群,y 轴是客户数量,红色是买家,蓝色是非买家
更新:我制作了一个 3D 图表,展示了集群、客户数量和操作之间的平均时间(由于原因而标准化)
另一个更新:客户(不按集群分组,只是按原样)根据他们查看的平均产品数量和操作之间的平均时间
我接受了一些建议并尝试使用 PCA(来自本教程),这些是我得到的结果:
关于如何聚集这个烂摊子的任何提示?