我了解随机环境并不总是通过给出特定操作将您引导至所需状态(但是变成不想要状态的概率是固定的,对吧?)。
例如,冰湖环境是一个随机环境。有时您想朝一个方向移动,而代理滑倒并朝另一个方向移动。与具有多个代理的环境不同,其他代理的动作概率正在变化,因为它们不断学习(非平稳环境)。
为什么在随机环境中学习很难,例如,如果 Q-learning 可以解决冰湖环境?在什么情况下,在随机环境中学习会很困难?
我找到了一些解决该问题的文章,但我不明白为什么如果 Q-learning 可以解决它(对于离散状态/动作)会很困难。