我有一个功能性 LSTM 模型,它的性能可以接受。我现在如何将此监督模型转换为强化学习模型以提高性能?有没有关于如何将监督模型转换为强化学习模型的示例?
详细信息:我有一个多输入多输出系统(因为我无法分享实际问题,所以假设以天气预报为例),我需要实时预测输出(例如温度、风速等)。我有一个大数据集,我试用了一个监督学习模型,它可以很好地实时进行预测。
问题是有时预测值和实际值之间存在很大偏差。这意味着输入中可能存在从未出现在数据集中的新趋势。对于这种情况,我想逐渐增强我的模型预测。
这是否意味着我必须使用旧数据集和新数据再次训练我的模型,或者我可以简单地拥有一个 RL 机制来逐步改进模型?