我正在尝试根据未来 36 个月的余额轨迹形状对信用账户进行聚类,以确定投资组合中可能存在的不同类型的形状。这是我的做法:
- 通过将平衡轨迹转换为平衡的比例(每个时间点的平衡除以起点的初始平衡)来标准化平衡轨迹
- 做 PCA 并从 36 维减少到 3 维。前 3 个组件解释了最初 36 个值中几乎约 85% 的变化。
- 做 K-means 聚类(在 SAS 中使用 fastclus)。
问题是我最终得到的 CCC(三次聚类标准)值非常高(~-500),即使在我将近 15-20% 的数据识别为异常值之后(使用 fastclus 中的 strict= 选项)。我知道对于统计上合理的聚类,CCC 值应该在 2-3 左右。有什么办法可以改善吗?在做k-means之前我应该标准化3个主要成分吗?
更新:似乎 PCA 会导致订单丢失,因为它没有注意余额发生的顺序。谁能建议更好的参数来捕获我可以在 K-means 中使用的 36 个月的余额信息?我想用可能的最低维数做 K-means,因为距离不适用于高维数据(在我的情况下为 36)。我认为使用坡度、曲率和水平。我可以用平均值定义水平,用平衡与时间方程的回归斜率系数定义斜率,但是如何定义曲率?
我的基本目标是将那些具有相似余额轨迹的账户聚集在一起。