我正在尝试对发动机传感器读数的数据集进行一些数据探索和分析。我想确定我拥有的数据是否足以预测故障时间并可能对故障类型进行分类。
背景:
以大约 5 到 10 分钟的随机时间间隔以 1 分钟为单位收集数据。每个 1 分钟的突发包含 4 组不同的传感器,每组持续约 15 秒。这些组由通常一起用于技术人员手动诊断的传感器组织。这个想法是希望能够捕捉这些传感器与随着时间的推移“退化”之间的重要关系。有很多引擎在采集过程中因为通信接口不可靠而丢失数据。另一层复杂性是没有定义每个引擎类型的功能。EX:制造或不同的发动机统计数据没有太多关于发动机故障的数据,因为在 20,000 台发动机中只有 800 台发动机,分为 8 种可能的故障类别。
我可能已经超越了自己,但这是我到目前为止所做的:
- 通过获取最小值、最大值、平均值、标准差、25%、50%、75% 将数据重新采样为几天
- 绘制相关矩阵
- 绘制了一些传感器数据以验证数据是否随着时间的推移显示出“退化”的迹象
- 运行一些简单的 ML 分类器和回归器以获得基线 auc 和准确度
- 使用一些无监督学习技术来创建新特征 EX:使用动态时间扭曲作为 DBscan 聚类的距离度量
目前,我没有看到工程特征之间有太大的相关性,也没有使用任何有监督的 ML 获得很多好的结果。我还没有尝试过 LSTM 或 OneVsRest 分类器的变体,但从我所读到的内容来看,这些是解决这类问题的流行技术。
任何想法如何进一步探索数据?任何想法如何创建新特征、重新采样或提取时间序列数据传感器的关系?