根据余额轨迹对信用卡账户进行聚类

数据挖掘 聚类 k-均值
2022-03-11 04:15:21

我正在尝试根据未来 36 个月的余额轨迹形状对信用账户进行聚类,以确定投资组合中可能存在的不同类型的形状。这是我的做法:

  1. 通过将平衡轨迹转换为平衡的比例(每个时间点的平衡除以起点的初始平衡)来标准化平衡轨迹
  2. 做 PCA 并从 36 维减少到 3 维。前 3 个组件解释了最初 36 个值中几乎约 85% 的变化。
  3. 做 K-means 聚类(在 SAS 中使用 fastclus)。

问题是我最终得到的 CCC(三次聚类标准)值非常高(~-500),即使在我将近 15-20% 的数据识别为异常值之后(使用 fastclus 中的 strict= 选项)。我知道对于统计上合理的聚类,CCC 值应该在 2-3 左右。有什么办法可以改善吗?在做k-means之前我应该​​标准化3个主要成分吗?

更新:似乎 PCA 会导致订单丢失,因为它没有注意余额发生的顺序。谁能建议更好的参数来捕获我可以在 K-means 中使用的 36 个月的余额信息?我想用可能的最低维数做 K-means,因为距离不适用于高维数据(在我的情况下为 36)。我认为使用坡度、曲率和水平。我可以用平均值定义水平,用平衡与时间方程的回归斜率系数定义斜率,但是如何定义曲率?

我的基本目标是将那些具有相似余额轨迹的账户聚集在一起。

0个回答
没有发现任何回复~