虽然我已经能够使用 Deep Q 学习解决 MountainCar-v0,但无论我尝试什么,我都无法使用策略梯度方法解决这个环境。据我在网上了解到,这是一个很难解决的环境,主要是因为代理只有在达到目标时才会获得奖励,这是一种罕见的事件。我尝试应用所谓的“奖励工程”,或多或少地用基于整个系统的“能量”(动能加势能)的奖励代替环境给予的奖励,但尽管如此,还是没有运气。我问你:
- 假设 MountainCar-v0 超出了当前最先进的 A3C 算法是正确的,因此它需要一些人工干预来向代理建议遵循的策略,例如采用奖励工程?
- 如果实际需要奖励工程,任何人都可以提供有关可以使用哪种奖励功能的任何提示吗?
谢谢你的帮助。