数据挖掘 - 具有异质长度和内容的多元时间序列的相似性度量 - 吾爱随笔录

我有兴趣使用 python 对 T'values' 每个（不同长度）的多元 N 时间序列进行聚类。每个变量都有许多趋势和值，它们同时是数字的和名义的。

一个样品 $T_{i}$ 在数据集中具有以下格式：

TimeStamp       | Sensor0 | Sensor1| Sensor2
2015-02-05 11:30|<Min     | On     | off
2015-02-05 11:31|<Min     | on     | off 
2015-02-05 11:32| Action2 | 10     | 0.0001  
2015-02-07 11:33| Action2 | 10     | 0.00012 
2015-02-07 11:34| Action2 | 10     | 0.00012 
2015-02-07 11:35| Action2 | 20     | 0.00015

另一个样本 $T_{j}$ 在数据集中具有以下格式：

TimeStamp       | Sensor0 | Sensor1| Sensor2
2015-10-05 11:30| Action2 | 11     | off
2015-10-05 11:31| Action1 | 11     | off 
2015-10-05 11:32| Action2 | NAN    | 0.0001  
2015-10-07 11:33| Action3 | NAN    | 0.00012 
2015-10-07 11:34| <Min    | 10     | 0.00012 
2015-10-07 11:35| <Min    | 15     | on

对于缺失值（不是数字），它们没有被传感器收集，所以我的想法是用最小值替换它们，因为所有值都是严格的正数。否则，它们将被视为缺失值。在这种情况下，问题将是找到一个可以比较缺失值（off，on..）和数值的相似性度量。

我想知道文献中是否已经存在相似性/距离测量来比较这种多元时间序列和异质长度，以及这种问题是否已经在论文、书籍或其他 R 和 python 中提出。

谢谢你的建议。