什么是不受控制的日志记录策略?
人工智能
强化学习
2021-11-07 08:54:27
1个回答
在谈论离策略学习时,这个策略通常被称为行为策略。在世界上实际采取行动的是政策。想要学习的策略,例如 Q 学习中的贪心策略,称为目标策略。通过这种方式,行为策略“记录”目标策略(或多个策略)可以从中学习的经验。