我有设备,我有一个连续变量的时间序列数据。我必须评估这些设备上该变量的配置文件与“事件”之间的关系。
这些事件是根据某个时间段内的发生情况给出的。
我的第一个意图是制作该变量的类似行为的集群,并将这些集群与低/中/高事件率进行比较。
我正在考虑用最小值、最大值、四分位数、平均值、正常 qq p 值、峰度等作为维度做 K-means,但我认为这不是一个好主意,因为:
- 这些维度不是独立的
- 它正在“丢失”数据,因此可能会丢失分类潜力
您对将类似设备分组在一起有什么建议吗?
另外,您还有其他想法来建立这种关系吗?
语境:
- python3 与 scipy 堆栈
- 每天约 3000 台设备和数十万条数据;5个月考虑