我有一组时间序列数据。每个系列都涵盖同一时期,尽管每个时间系列中的实际日期可能并不完全“排列”。
也就是说,如果将时间序列读入二维矩阵,它看起来像这样:
date T1 T2 T3 .... TN
1/1/01 100 59 42 N/A
2/1/01 120 29 N/A 42.5
3/1/01 110 N/A 12 36.82
4/1/01 N/A 59 40 61.82
5/1/01 05 99 42 23.68
...
31/12/01 100 59 42 N/A
etc
我想编写一个 R 脚本,将时间序列 {T1, T2, ... TN} 分成“家庭”,其中一个家庭被定义为一组“倾向于相互同情”的系列。
对于“聚类”部分,我需要选择/定义一种距离度量。我不太确定如何解决这个问题,因为我正在处理时间序列,并且可能在一个间隔内以同情的方式移动的一对系列在随后的间隔内可能不会这样做。
我相信这里有比我更有经验/更聪明的人,所以我将不胜感激任何建议,关于使用什么算法/启发式来测量距离以及如何使用它来对时间序列进行聚类的想法。
我的猜测是,没有一种既定的稳健统计方法可以做到这一点,所以我很想看看人们如何处理/解决这个问题——像统计学家一样思考。