我对 ds 领域很陌生,最近我正在研究一个聚类模型的自我项目。我的目标是创建集群并在每个集群中查看客户之间的共同特征。该数据集包含客户的信息、他们订购的时间和产品等等。以下是数据示例:
id gender age order_dt ship_dt product
1 male 23 1/2/2018 1/9/2018 a
1 male 23 1/5/2018 1/6/2018 b
2 female 45 1/10/2018 1/20/2018 c
3 female 30 1/1/2018 1/2/2018 a
3 female 30 1/15/2018 1/20/2018 c
3 female 30 1/21/2018 1/21/2018 b
3 female 30 1/29/2018 2/1/2018 a
但是,每个 id 可能会导致数据集中不同数量的记录。有些可能有很多记录,因为他们订购了很多次,而有些只订购了一次。我用谷歌搜索了不平衡的数据,但他们中的大多数人都在谈论一个类别的不平衡(也许是特征?)而不是观察的不平衡数量。我是否应该对每个 id 进行聚合,以便每个 id 在数据集中只有 1 条记录,或者是否有任何技术来处理这样的数据?
提前致谢,