为什么DQN不能用于自动驾驶汽车?为什么 DQN 和类似的 RL 算法不能用于自动驾驶汽车?
我好奇的原因是它成功地玩了围棋和其他多态游戏。
我不熟悉自动驾驶汽车的来龙去脉,但我想动作空间不是离散的。例如,汽车可能想要决定它需要转弯的角度(而不是向左或向右)。Q-Learning 的更新涉及采取最大限度一个Q ( s , a )maxaQ(s,a); 这在理论上对于连续动作空间是可能的,但它本身需要在每个时间步进行一些昂贵的优化才能找到最大值。如果将 RL 应用于自动驾驶汽车,它更有可能是通过一种容易允许连续动作空间的方法,就像本文中详述的方法一样。
我发现了你可能想看的关于自动驾驶深度强化学习的调查。