人工智能 - RL 还能在当前状态和下一个状态独立的场景中学习吗？ - 吾爱随笔录

RL 还能在当前状态和下一个状态独立的场景中学习吗？

人工智能机器学习强化学习马尔可夫决策过程

2021-10-31 09:25:25

我正在尝试将强化学习应用到我的现实问题中。让我对应用 RL 犹豫不决的一件事是，我的这个现实世界问题在某种程度上是独一无二的，因为每个状态都是相互独立的。代理在时间步t采取的行动是唯一影响下一个时间步的状态的事情。（例如，在“状态-动作-奖励-下一个状态”的循环中，“下一个状态”完全依赖于“动作”而不是“状态”。）

我想知道 RL 是否仍然能够通过这种情况进行学习。如果没有，还有哪些其他方法可以选择？

1个回答

您没有完整的强化学习问题，但似乎有一个无上下文的 k 臂老虎机问题：

时间的开始状态 $t$ 本质上与问题无关。它不会影响可用的操作、奖励或下一个状态。
时间的下一个状态 $t+1$ 之所以有趣，是因为它决定了回报。
所有动作都是有效的独立事件，不受系统先前历史的影响。

就代理而言，您可以忽略状态。它可能在环境中机械地发生，但可以通过观察每个动作后的奖励值来优化代理。它不需要观察状态，因为没有什么可以从中学习的，并且将状态作为输入参数的策略函数没有意义。

如果您的行动空间很小，您可以使用多种优化器中的任何一种来处理 k 臂老虎机。

如果你的动作空间很大，你可能需要使用某种梯度老虎机（非常类似于 RL 中使用的策略梯度方法，除了没有输入层，因为使用状态值作为函数的输入会反生产的）。

其它你可能感兴趣的问题

上一篇汽车上的自动远光灯是如何工作的？下一篇什么可以作为深度学习系统中使用的先验知识的例子？