介绍
论文Learning Policies for Embodied Virtual Agents through Demonstration (2017, Jonathan Dinerstein et al.) 中描述了一个有吸引力的小行星游戏:
在我们的第一个实验中,虚拟代理是宇宙飞船飞行员,飞行员的任务是操纵宇宙飞船穿过随机的小行星场
从理论上讲,这个游戏可以通过强化学习来解决,或者更具体地说,可以通过支持向量机 (SVM) 和具有高斯核的 epsilon 回归方案来解决。但正如同一篇论文的作者所写,这项任务似乎比看起来更难
尽管存在许多强大的 AI 和机器学习技术,但仍然难以为具身虚拟代理快速创建 AI。
实现看起来自然的行为是相当具有挑战性的,因为这些审美目标必须整合到健身功能中
问题
我真的很想了解强化学习是如何工作的。我构建了一个简单的游戏来测试这一点。有方块从天而降,你有箭头键可以逃脱。
我如何编写 RL 算法来解决这个游戏?我可以根据我认为应该发生的情况在 Javascript 中手动执行此操作吗?我怎样才能做到这一点而不必映射矩形的位置和我的位置,只需为代理提供键盘箭头以进行交互和三个信息:
- 球员生活
- 生存时间
- 最长生存时间