数据挖掘 - 根据余额轨迹对信用卡账户进行聚类 - 吾爱随笔录

我正在尝试根据未来 36 个月的余额轨迹形状对信用账户进行聚类，以确定投资组合中可能存在的不同类型的形状。这是我的做法：

通过将平衡轨迹转换为平衡的比例（每个时间点的平衡除以起点的初始平衡）来标准化平衡轨迹
做 PCA 并从 36 维减少到 3 维。前 3 个组件解释了最初 36 个值中几乎约 85% 的变化。
做 K-means 聚类（在 SAS 中使用 fastclus）。

问题是我最终得到的 CCC（三次聚类标准）值非常高（~-500），即使在我将近 15-20% 的数据识别为异常值之后（使用 fastclus 中的 strict= 选项）。我知道对于统计上合理的聚类，CCC 值应该在 2-3 左右。有什么办法可以改善吗？在做k-means之前我应该标准化3个主要成分吗？

更新：似乎 PCA 会导致订单丢失，因为它没有注意余额发生的顺序。谁能建议更好的参数来捕获我可以在 K-means 中使用的 36 个月的余额信息？我想用可能的最低维数做 K-means，因为距离不适用于高维数据（在我的情况下为 36）。我认为使用坡度、曲率和水平。我可以用平均值定义水平，用平衡与时间方程的回归斜率系数定义斜率，但是如何定义曲率？

我的基本目标是将那些具有相似余额轨迹的账户聚集在一起。