在随机环境中学习真的很难吗?

人工智能 强化学习 q学习 马尔可夫决策过程 环境
2021-11-13 18:54:39

我了解随机环境并不总是通过给出特定操作将您引导至所需状态a(但是变成不想要状态的概率是固定的,对吧?)。

例如,冰湖环境是一个随机环境。有时您想朝一个方向移动,而代理滑倒并朝另一个方向移动。与具有多个代理的环境不同,其他代理的动作概率正在变化,因为它们不断学习(非平稳环境)。

为什么在随机环境中学习很难,例如,如果 Q-learning 可以解决冰湖环境?在什么情况下,在随机环境中学习会很困难?

我找到了一些解决该问题的文章,但我不明白为什么如果 Q-learning 可以解决它(对于离散状态/动作)会很困难。

1个回答

随机环境并不一定意味着奖励分布是固定的。就像 FrozenLake 的情况一样。您链接的论文还提到其他算法已经解决了非平稳情况。

如果您有一个简单的静止随机环境,那么您只需要更多的样本轨迹来确定哪个动作更好。如果环境是完全可观察的,那么基于估计的动作值,您可以构建确定性的最优策略。