我有兴趣使用 python 对 T'values' 每个(不同长度)的多元 N 时间序列进行聚类。每个变量都有许多趋势和值,它们同时是数字的和名义的。
一个样品 在数据集中具有以下格式:
TimeStamp | Sensor0 | Sensor1| Sensor2
2015-02-05 11:30|<Min | On | off
2015-02-05 11:31|<Min | on | off
2015-02-05 11:32| Action2 | 10 | 0.0001
2015-02-07 11:33| Action2 | 10 | 0.00012
2015-02-07 11:34| Action2 | 10 | 0.00012
2015-02-07 11:35| Action2 | 20 | 0.00015
另一个样本 在数据集中具有以下格式:
TimeStamp | Sensor0 | Sensor1| Sensor2
2015-10-05 11:30| Action2 | 11 | off
2015-10-05 11:31| Action1 | 11 | off
2015-10-05 11:32| Action2 | NAN | 0.0001
2015-10-07 11:33| Action3 | NAN | 0.00012
2015-10-07 11:34| <Min | 10 | 0.00012
2015-10-07 11:35| <Min | 15 | on
对于缺失值(不是数字),它们没有被传感器收集,所以我的想法是用最小值替换它们,因为所有值都是严格的正数。否则,它们将被视为缺失值。在这种情况下,问题将是找到一个可以比较缺失值(off,on..)和数值的相似性度量。
我想知道文献中是否已经存在相似性/距离测量来比较这种多元时间序列和异质长度,以及这种问题是否已经在论文、书籍或其他 R 和 python 中提出。
谢谢你的建议。