仅标记少量时间序列数据的分析方法

数据挖掘 机器学习 数据集 时间序列 多标签分类
2022-02-26 17:22:48

我有时间序列数据,其中只有 10% 被标记为 10 个类。我应该寻找什么方法或模型来分析这个问题?我知道这个问题有点模糊,但我不是在寻找确切的答案。我将不胜感激有关如何解决这些类型问题的任何指示或资源。

2个回答

正如评论中提到的,半监督方法值得一读。如果时间序列按时间步标记,则可以使用动态系统和高斯过程。使用 NN 可能有用的一些方法是:

  • 使用自动编码器预训练神经网络。您可以使用 RNN 对系列的时间方面进行编码(https://papers.nips.cc/paper/5271-pre-training-of-recurrent-neural-networks-via-linear-autoencoders.pdf)。
  • GAN(生成对抗网络)目前非常流行,通过联合训练两个网络(监督与无监督)来玩零和游戏,从而利用大量未标记数据。https://arxiv.org/pdf/1611.09904.pdf(如果您想考虑数据的时间结构,请再次对 RNN-GAN 进行一些工作)。请注意,这些很难训练。
  • 阶梯网络https://arxiv.org/pdf/1507.02672.pdf一种非常有趣的用于常规全连接网络的半监督方法。这在 MNIST 数据集上产生了非常有趣的结果(仅使用 300 个标记样本来达到最先进的结果)。

  • 众所周知,CNN 对时间序列也很有效。因为他们在数据上实现了自适应 FIR 滤波器。与 RNN 结合使用可能值得一试。

上述所有方法仍然需要一些合理数量的标记数据。

我不是专家,但这里有我的两个初步想法: