具有异质长度和内容的多元时间序列的相似性度量

数据挖掘 聚类 时间序列 相似
2021-09-25 21:26:32

我有兴趣使用 python 对 T'values' 每个(不同长度)的多元 N 时间序列进行聚类。每个变量都有许多趋势和值,它们同时是数字的和名义的。

一个样品 一世 在数据集中具有以下格式:

TimeStamp       | Sensor0 | Sensor1| Sensor2
2015-02-05 11:30|<Min     | On     | off
2015-02-05 11:31|<Min     | on     | off 
2015-02-05 11:32| Action2 | 10     | 0.0001  
2015-02-07 11:33| Action2 | 10     | 0.00012 
2015-02-07 11:34| Action2 | 10     | 0.00012 
2015-02-07 11:35| Action2 | 20     | 0.00015 

另一个样本 j 在数据集中具有以下格式:

TimeStamp       | Sensor0 | Sensor1| Sensor2
2015-10-05 11:30| Action2 | 11     | off
2015-10-05 11:31| Action1 | 11     | off 
2015-10-05 11:32| Action2 | NAN    | 0.0001  
2015-10-07 11:33| Action3 | NAN    | 0.00012 
2015-10-07 11:34| <Min    | 10     | 0.00012 
2015-10-07 11:35| <Min    | 15     | on 

对于缺失值(不是数字),它们没有被传感器收集,所以我的想法是用最小值替换它们,因为所有值都是严格的正数。否则,它们将被视为缺失值。在这种情况下,问题将是找到一个可以比较缺失值(off,on..)和数值的相似性度量。

我想知道文献中是否已经存在相似性/距离测量来比较这种多元时间序列和异质长度,以及这种问题是否已经在论文、书籍或其他 R 和 python 中提出。

谢谢你的建议。

1个回答

试试这篇最近的论文:Consistent Algorithms for Clustering Time Series

您的问题在很大程度上是当前的研究课题。

这是一篇较旧但非常出色的论文,它讨论了基础知识:Generalized Feature Extraction for Structural Pattern Recognition in Time-series Data