我正在研究强化学习以实现一种时间序列模式分析器,例如市场。
我见过的大多数例子都是基于迷宫环境的。
但在真实的市场环境中,信号会随着时间的推移而不断变化,我无法猜测如何对环境和状态进行建模。
另一个问题是关于买卖模型的。
让我们假设代理在某个时间随机购买并及时出售.
计算奖励很简单。问题是我如何建模矩阵以及如何对买入和卖出行为之间的信号进行建模。
你能分享一些类似情况的源代码或指导吗?
我正在研究强化学习以实现一种时间序列模式分析器,例如市场。
我见过的大多数例子都是基于迷宫环境的。
但在真实的市场环境中,信号会随着时间的推移而不断变化,我无法猜测如何对环境和状态进行建模。
另一个问题是关于买卖模型的。
让我们假设代理在某个时间随机购买并及时出售.
计算奖励很简单。问题是我如何建模矩阵以及如何对买入和卖出行为之间的信号进行建模。
你能分享一些类似情况的源代码或指导吗?