将监督神经网络转换为强化学习?

数据挖掘 lstm 强化学习
2022-02-17 19:39:07

我有一个功能性 LSTM 模型,它的性能可以接受。我现在如何将此监督模型转换为强化学习模型以提高性能?有没有关于如何将监督模型转换为强化学习模型的示例?

详细信息:我有一个多输入多输出系统(因为我无法分享实际问题,所以假设以天气预报为例),我需要实时预测输出(例如温度、风速等)我有一个大数据集,我试用了一个监督学习模型,它可以很好地实时进行预测。

问题是有时预测值和实际值之间存在很大偏差。这意味着输入中可能存在从未出现在数据集中的新趋势。对于这种情况,我想逐渐增强我的模型预测。

这是否意味着我必须使用旧数据集和新数据再次训练我的模型,或者我可以简单地拥有一个 RL 机制来逐步改进模型?

1个回答

有趣的问题!

我认为在 DQN 设置中重新使用您的模型可能会很有趣。如果您不时地重新训练您的监督模型以更新 DQN 模型,则更是如此(尽管在这种情况下,您必须弄清楚如何重用您的模型从 DQN 中学到的东西与它在监督下学到的东西)。

我认为要让你开始,你必须定义你正在使用 RL 的上下文。强化学习所需的基本要素是:

  • 代理人(决定做什么的人)
  • 状态(如何描述受代理行为影响的当前环境的快照)
  • 一个动作(因此您的代理可以主动“做”以在其环境中引发另一种状态)
  • 奖励(你可以“给”你的代理人了解他选择了好还是坏的东西)

假设你想使用像 DQN 这样的东西,你必须定义这些东西才能运行算法。然后,您当前的监督模型将成为您的 NN 的起始状态,用于选择您的代理的决策。

您正在寻找的关键字是“Transferlearning”,它描述了如何将经过训练的模型用于其他情况。在您的情况下,甚至是其他学习方法。