我正在尝试将强化学习应用到我的现实问题中。让我对应用 RL 犹豫不决的一件事是,我的这个现实世界问题在某种程度上是独一无二的,因为每个状态都是相互独立的。代理在时间步t采取的行动是唯一影响下一个时间步的状态的事情。(例如,在“状态-动作-奖励-下一个状态”的循环中,“下一个状态”完全依赖于“动作”而不是“状态”。)
我想知道 RL 是否仍然能够通过这种情况进行学习。如果没有,还有哪些其他方法可以选择?
我正在尝试将强化学习应用到我的现实问题中。让我对应用 RL 犹豫不决的一件事是,我的这个现实世界问题在某种程度上是独一无二的,因为每个状态都是相互独立的。代理在时间步t采取的行动是唯一影响下一个时间步的状态的事情。(例如,在“状态-动作-奖励-下一个状态”的循环中,“下一个状态”完全依赖于“动作”而不是“状态”。)
我想知道 RL 是否仍然能够通过这种情况进行学习。如果没有,还有哪些其他方法可以选择?
您没有完整的强化学习问题,但似乎有一个无上下文的 k 臂老虎机问题:
时间的开始状态本质上与问题无关。它不会影响可用的操作、奖励或下一个状态。
时间的下一个状态之所以有趣,是因为它决定了回报。
所有动作都是有效的独立事件,不受系统先前历史的影响。
就代理而言,您可以忽略状态。它可能在环境中机械地发生,但可以通过观察每个动作后的奖励值来优化代理。它不需要观察状态,因为没有什么可以从中学习的,并且将状态作为输入参数的策略函数没有意义。
如果您的行动空间很小,您可以使用多种优化器中的任何一种来处理 k 臂老虎机。
如果你的动作空间很大,你可能需要使用某种梯度老虎机(非常类似于 RL 中使用的策略梯度方法,除了没有输入层,因为使用状态值作为函数的输入会反生产的)。