区分两个短期信号(时间序列)的特征是什么

数据挖掘 数据挖掘 时间序列 特征选择 特征提取
2022-01-19 10:31:58

想象一下,我有一组具有不同形状和参数的短期时间序列数据(信号)。我想提取/选择一组特征(参数/函数/索引)来识别每个序列并区分它们。这些特征是简单的特征,例如最大值和最小值、均值、方差、开始和结束值等,或者更复杂的特征,例如熵、否。峰值,功率谱等。我正在寻找更多“代表性”特征来表达信号并区分它们。您知道哪些特征(在信号处理或数据挖掘领域)可以表示信号中的参数?
例如,在下图中,有两个信号具有相同的参数,例如均值、最小值-最大值。但是它们有什么不同的特征(例如没有峰值,但通常还有什么?) 在此处输入图像描述

1个回答

您提供的示例在持续时间和幅度上看起来彼此相似,因此标准化可能不是问题。但是请考虑您是否将始终比较相同的持续时间,以及您是要比较时间序列中的相对变化还是绝对变化。可以通过标准化系列来测量相对变化,以便将第一个值(起点)设置为 0。根据您的问题,这可能值得考虑。

其次,考虑某种平滑算法来消除数据中的一些抖动。示例包括指数加权移动平均线或二阶Holt-Winters EWMA

评论中的建议很好……无论是通过 FFT 进行傅里叶变换还是转向小波公式都很有趣,但就(时间空间中)的数据量相等而言,它们仍然是一对一的输出的数据量(在频率空间中)。

我建议首先包括原始数据或原始数据的下采样以及一些附加特征,例如曲线下面积、最大值、最小值。我会远离放大数据抖动的程序(如导数),而使用那些减少抖动的程序(如积分)。

一个不错的选择,隐式平滑将是对您的数据进行运行积分,然后绘制运行积分而不是值本身。这不需要先验平滑并且仍然是确定性的。

在此之后,我建议进行一大堆特征提取/特征工程,然后尝试LASSO 回归以挑选出最有用的特征。

一些特征工程的想法包括:

  • 通过 FFT 进行傅里叶变换
  • 可能只保留从上面的 n (~10) 个最大的傅立叶模式,而不是完整的集合。
  • 您的数据的积分。
  • 分钟。
  • 最大限度。
  • 过零次数。

由于时间序列数据的随机性,建议查看二阶导数变化的数量很难。斜率(导数)非常广泛,很大程度上取决于应用了多少平滑以及如何对数据进行采样。