Q-learning 中的“学习策略”是什么?

人工智能 强化学习 q学习 术语 价值函数 政策
2021-11-08 04:16:00

我正在完成一项任务。其中一个作业问题询问您如何确定学习的策略以及如何获得它。这个问题是一个强化学习问题,任务是应用 Q-learning 算法来填写一个 Q-table(我已经完成了),但对学习策略的含义感到困惑。

那么,什么是 Q-learning 中的“学习策略”?

1个回答

AQ 表允许您在其中查找任何状态/动作对并找到关联的动作值。它本身并不是一项政策。但是,为了计算动作值,您需要对策略进行一些假设。

Q 学习最常见的策略场景是它将收敛(学习)与给定目标策略相关的值,或者它已被迭代地用于学习贪婪策略相对于其自身先前值的值。后一种选择——使用 Q 学习来寻找最优策略,使用广义策略迭代——是迄今为止最常见的用法。

策略不是值列表,它是从状态到操作的映射。该问题希望您展示您已了解 Q 值的策略。

因此,您的情况下的策略可能是选择在每个状态中具有最高操作值的操作。您可以用文字(“除非靠近出口,否则始终向左转”)或图形(在网格世界上绘制箭头以显示首选方向)来描述您的答案。或者你可以写出一个状态表,显示每个状态中选择的动作。

如何从 Q 表中导出策略的数学符号可以写成:

π(s)=argmaxaQ(s,a)

或者更正式一点:

π:SA=argmaxaA(s)Q(s,a)sS