如何使用新的传入数据流持续训练模型

数据挖掘 机器学习 深度学习
2021-10-09 05:26:34

我在机器学习方面的经验有限,我训练了一些网络,但没有什么不寻常的。我有以下问题,但我不太确定如何解决它,我希望在这里得到一些建议。

我有一系列与时间相关的数据(时间戳+值),我想用它们来预测接下来的几个结果。通常这个问题可以通过使用 LSTM 来解决。每隔几分钟我就会得到一个新的数据点,我想存储它并考虑未来的预测。

我认为我遇到的问题是我需要每隔几分钟就改变输入大小来训练模型(我想一次用整个历史训练模型,我不知道这是否有意义)而且我不想随着时间的推移过度拟合模型。

我不确定哪种架构或概念最适合此类问题,因此我希望在这里找到一些建议。谢谢!

1个回答

这是一种持续学习/终身学习的形式,这往往非常具有挑战性,因为对新数据进行再训练会使传统模型“忘记”他们以前学到的东西。根据您接收新数据的频率和训练模型所需的时间,每次接收新样本时重新训练所有数据通常是不可行的。

wrt LSTM,您不需要更改输入大小,因为您可以根据预设和恒定输入大小对时间序列数据进行分区。例如,如果您有 100 个有序样本,您可以让 LSTM 接收 10 个样本的输入并预测/回归接下来的第 11 个样本。因此,您将拥有 90 个固定大小的分区样本。如果您有另一个有序样本 (101),那么您将有 91 个大小为 10 的分区样本。

持续学习是一个活跃的研究领域,因此您可以在对抗性 CL 上找到许多最近的作品,例如几个月前的这幅作品。

有关机器人技术中 CL 的评论,您可以查看这篇论文