对重叠的地块进行分类的最佳方法?

数据挖掘 分类 lstm 特征选择 特征提取 机器学习模型
2022-03-12 22:00:41

我有一个实验,它是在两种条件下完成的。对于每个条件,实验进行了 26 次。实验的输出是一个包含 70 个时间索引的图。我想训练一个分类器来预测,给定一个情节,它属于哪个条件。下图显示了在不同颜色识别的两种条件下进行的实验的输出。实际实验从索引 35 开始,因此可以看出,无论条件如何,在此之前的实验结果都没有差异。这些图表示来自一个通道(电极)的 EEG 的功率谱密度。

我正在尝试训练一个忽略低于 35 的特征的 svm 分类器。考虑到每个条件的高可变性,分类器很难做到这一点。一件事是,对红色图和蓝色图进行平均会产生明显不同的行为,从第二个图中可以看出。我想提高分类器的准确率,超过 65%。LSTM 适合这类问题吗?还有其他建议吗? X_axis:时间(毫秒),Y_axis:幅度

每个类别的平均值

1个回答

一个快速的答案是,由于您有时间序列数据,如果您想建模/利用每个系列中的值之间的时间依赖性,LSTM 通常是合适的。LSTMs 现在与 CNNs 相结合以获得更好的性能。你可以参考这个问答:什么是时间序列数据分类的最佳方法?我应该使用 LSTM 还是任何其他方法唯一的问题是,您的数据集似乎非常小,考虑到神经网络需要计算的参数数量,这通常会导致过度拟合。LSTM 所需的训练样本数量实际上有一个下限(请参阅:LSTM 模型中的参数数量)。也许你可以找到在类似数据上训练的预训练 RNN/LSTM,你可以使用它们。

一般来说,可以(并且可能应该)尝试任何分类算法(尤其是那些在时间序列数据上表现良好的分类算法)。对于 SVM,我希望您尝试过不同的内核。至少有一篇论文讨论了不同 SVM 内核在时间序列分析中的相对优点:http ://www-ai.cs.uni-dortmund.de/EVENTS/FGML2001/FGML2001-Paper-Rueping.pdf 。

如果您还没有这样做,我还建议您研究适用于其他人的时间序列数据(尤其是 EEG 数据)的特征提取策略。交叉验证网站上至少有一个关于此主题的问答:https ://stats.stackexchange.com/questions/66027/time-series-classification-very-poor-results 。