强化学习问题是否适用于只有一个 - 最终 - 奖励时的设置。我知道稀疏和延迟奖励的问题,但是只有一个奖励和很长的路径呢?
强化学习可以用于只获得一个最终奖励的任务吗?
人工智能
强化学习
奖励设计
稀疏奖励
信用分配问题
延迟奖励
2021-10-19 02:18:47
其它你可能感兴趣的问题