我正在完成一项任务。其中一个作业问题询问您如何确定学习的策略以及如何获得它。这个问题是一个强化学习问题,任务是应用 Q-learning 算法来填写一个 Q-table(我已经完成了),但对学习策略的含义感到困惑。
那么,什么是 Q-learning 中的“学习策略”?
我正在完成一项任务。其中一个作业问题询问您如何确定学习的策略以及如何获得它。这个问题是一个强化学习问题,任务是应用 Q-learning 算法来填写一个 Q-table(我已经完成了),但对学习策略的含义感到困惑。
那么,什么是 Q-learning 中的“学习策略”?
AQ 表允许您在其中查找任何状态/动作对并找到关联的动作值。它本身并不是一项政策。但是,为了计算动作值,您需要对策略进行一些假设。
Q 学习最常见的策略场景是它将收敛(学习)与给定目标策略相关的值,或者它已被迭代地用于学习贪婪策略相对于其自身先前值的值。后一种选择——使用 Q 学习来寻找最优策略,使用广义策略迭代——是迄今为止最常见的用法。
策略不是值列表,它是从状态到操作的映射。该问题希望您展示您已了解 Q 值的策略。
因此,您的情况下的策略可能是选择在每个状态中具有最高操作值的操作。您可以用文字(“除非靠近出口,否则始终向左转”)或图形(在网格世界上绘制箭头以显示首选方向)来描述您的答案。或者你可以写出一个状态表,显示每个状态中选择的动作。
如何从 Q 表中导出策略的数学符号可以写成:
或者更正式一点: