人工智能 - Q-learning 中的“学习策略”是什么？ - 吾爱随笔录

人工智能强化学习 q学习术语价值函数政策

2021-11-08 04:16:00

我正在完成一项任务。其中一个作业问题询问您如何确定学习的策略以及如何获得它。这个问题是一个强化学习问题，任务是应用 Q-learning 算法来填写一个 Q-table（我已经完成了），但对学习策略的含义感到困惑。

那么，什么是 Q-learning 中的“学习策略”？

1个回答

AQ 表允许您在其中查找任何状态/动作对并找到关联的动作值。它本身并不是一项政策。但是，为了计算动作值，您需要对策略进行一些假设。

Q 学习最常见的策略场景是它将收敛（学习）与给定目标策略相关的值，或者它已被迭代地用于学习贪婪策略相对于其自身先前值的值。后一种选择——使用 Q 学习来寻找最优策略，使用广义策略迭代——是迄今为止最常见的用法。

策略不是值列表，它是从状态到操作的映射。该问题希望您展示您已了解 Q 值的策略。

因此，您的情况下的策略可能是选择在每个状态中具有最高操作值的操作。您可以用文字（“除非靠近出口，否则始终向左转”）或图形（在网格世界上绘制箭头以显示首选方向）来描述您的答案。或者你可以写出一个状态表，显示每个状态中选择的动作。

如何从 Q 表中导出策略的数学符号可以写成：

π (s) = {argmax}_{a} Q (s, a)

$\pi(s) = \text{argmax}_a Q(s,a)$

或者更正式一点：

π : S \to A = {argmax}_{a \in A (s)} Q (s, a) \forall s \in S

$\pi: \mathcal{S} \rightarrow \mathcal{A} = \text{argmax}_{a \in \mathcal{A}(s)} Q(s,a)\qquad \forall s \in \mathcal{S}$

其它你可能感兴趣的问题