数据挖掘 - 如何平衡具有不同观察次数的数据集 - 吾爱随笔录

我对 ds 领域很陌生，最近我正在研究一个聚类模型的自我项目。我的目标是创建集群并在每个集群中查看客户之间的共同特征。该数据集包含客户的信息、他们订购的时间和产品等等。以下是数据示例：

id   gender   age   order_dt   ship_dt  product
1     male     23   1/2/2018   1/9/2018    a
1     male     23   1/5/2018   1/6/2018    b
2    female    45   1/10/2018  1/20/2018   c
3    female    30   1/1/2018   1/2/2018    a
3    female    30   1/15/2018  1/20/2018   c
3    female    30   1/21/2018  1/21/2018   b
3    female    30   1/29/2018  2/1/2018    a

但是，每个 id 可能会导致数据集中不同数量的记录。有些可能有很多记录，因为他们订购了很多次，而有些只订购了一次。我用谷歌搜索了不平衡的数据，但他们中的大多数人都在谈论一个类别的不平衡（也许是特征？）而不是观察的不平衡数量。我是否应该对每个 id 进行聚合，以便每个 id 在数据集中只有 1 条记录，或者是否有任何技术来处理这样的数据？

提前致谢，