如何平衡具有不同观察次数的数据集

数据挖掘 机器学习 聚类 数据集 数据清理
2022-03-03 23:19:51

我对 ds 领域很陌生,最近我正在研究一个聚类模型的自我项目。我的目标是创建集群并在每个集群中查看客户之间的共同特征。该数据集包含客户的信息、他们订购的时间和产品等等。以下是数据示例:

id   gender   age   order_dt   ship_dt  product
1     male     23   1/2/2018   1/9/2018    a
1     male     23   1/5/2018   1/6/2018    b
2    female    45   1/10/2018  1/20/2018   c
3    female    30   1/1/2018   1/2/2018    a
3    female    30   1/15/2018  1/20/2018   c
3    female    30   1/21/2018  1/21/2018   b
3    female    30   1/29/2018  2/1/2018    a

但是,每个 id 可能会导致数据集中不同数量的记录。有些可能有很多记录,因为他们订购了很多次,而有些只订购了一次。我用谷歌搜索了不平衡的数据,但他们中的大多数人都在谈论一个类别的不平衡(也许是特征?)而不是观察的不平衡数量。我是否应该对每个 id 进行聚合,以便每个 id 在数据集中只有 1 条记录,或者是否有任何技术来处理这样的数据?

提前致谢,

1个回答

对数据进行聚类取决于您的目标是什么

在这种情况下,我假设您希望看到客户之间的相似性。

这意味着数据在客户级别应该是唯一的。这将有助于在某些客户属性中找到相似之处。

例如 交易数量 性别 年龄组 周末或工作日 txns 等

因此,您需要首先在用户级别聚合您的数据,并像上面的示例一样创建感兴趣的特征,并尝试对客户进行聚类。