假设我有一个数据集,其中包含n customers. Acustomer由 a name、 an order、 anorderAmount和 a timestamp(一天中的时间)表示,表示下订单的时间。它可能看起来像这样:
name |order|orderAmount|timestamp
customer1|tv |1 |08:30
customer2|hifi |1 |12:00
customer3|hifi |3 |12:30
customer4|tv |2 |09:30
customer5|cd |10 |10:00
customer1|tv |2 |11:30
... |... |... |...
我感兴趣的是对这些客户进行聚类,因此我可以清楚地区分它们。通过查看上面的集合,很明显他们购买的内容、数量和时间有所不同,但我想自动化这个过程,我认为集群是一种方法,但如果我'我错了。
我不确定的一件事是如何在“客户矩阵”中表示这个数据集。例如,我知道,基于距离的聚类方法(如 KMeans)需要某种标准化输入,但我如何使用这样的数据集着手呢?
当/如果我能产生好的集群,我想我可以为这些集群分配标签并使用这些标签来训练分类器?
我是数据科学的初学者,所以我的过程中可能会缺少一两个步骤,所以请多多包涵。