强化学习可以应用于时间序列预测吗?

数据挖掘 时间序列 强化学习 预测
2021-09-25 03:09:08

强化学习可以应用于时间序列预测吗?

1个回答

是的,但总的来说,它不是完成任务的好工具,除非在预测和系统的持续行为之间有重要的反馈。

要构建一个值得使用 RL 预测或控制算法的强化学习 (RL) 问题,您需要确定一些组件:

  • 处于可以按顺序测量/观察的多种状态之一环境。

  • 可以观察当前状态并按相同顺序执行操作代理。

  • 序列中状态的演变应该取决于当前状态和采取的行动的某种组合,也可能是随机的。

  • 应该有RL 代理可以观察或测量的奖励信号。奖励的价值应该取决于与状态演变相同的因素,但可以以不同的方式取决于它们。

时间序列预测的一般情况可以通过将预测视为行动来适应这一点,让状态演变仅取决于当前状态(加上随机性)和基于状态和行动的奖励。这将允许应用 RL,但因果关系仅以一种方式流动——从环境到您的预测模型。因此,例如,您可以为奖励做的最好的事情是使用一些关于预测正确性的指标。预测好坏的结果不会影响原始环境。本质上,您最终将在 RL 层中为序列(例如神经网络)包装一些预测模型,该模型可以很容易地被用于监督学习问题的基本数据集处理所取代。

将序列预测问题有意义地扩展到 RL 问题的一种方法是扩大环境范围,以包括基于预测做出的决策,以及受这些决策影响的系统状态。例如,如果您要预测股票价格,则将您的投资组合和资金包括在该州。同样,这些动作不再是预测,而是成为买卖命令。这不会改善价格预测组件(您可能最好将其视为一个单独的问题,使用更合适的工具 - 例如 LSTM),但它会将问题整体框架化为 RL 问题。