什么是不受控制的日志记录策略?

人工智能 强化学习
2021-11-07 08:54:27

我正在阅读从记录的隐式探索数据中学习

它说

形式上,给定由不受控制的日志记录策略交互生成的形式为 S = (x, a, r_a)* 的数据集

什么是这样的政策?

1个回答

在谈论离策略学习时,这个策略通常被称为行为策略。在世界上实际采取行动的是政策。想要学习的策略,例如 Q 学习中的贪心策略,称为目标策略。通过这种方式,行为策略“记录”目标策略(或多个策略)可以从中学习的经验。