数据挖掘 - 10武装试验台的奖励功能是什么？ - 吾爱随笔录

10武装试验台的奖励功能是什么？

数据挖掘强化学习

2022-02-16 16:41:57

Sutton & Barto 关于强化学习的书在第 2 章“强盗问题”中提到了 10 个武装测试台：

为了粗略评估贪婪和ε-贪婪方法的相对有效性，我们在一组测试问题上对它们进行了数值比较。这是一组 2000 个随机生成的 n 臂老虎机任务，n = 10。对于每个老虎机，动作值是根据均值为 0 和方差为 1 的正态（高斯）分布选择的。在给定老虎机的第 t^个时间步上，实际奖励是老虎机的（其中是动作选择）加上一个正态分布的噪声项，平均值为 0，方差为 1 [. . . .] 我们将这套测试任务称为 10 臂测试台。 $q_∗(a), a = 1, . . . , 10,$ $R_t$ $q_∗(A_t)$ $A_t$

10武装试验台的奖励功能是什么？我将其解释为 q*(a) + 一些通常的随机值。其中 q*(a) 是动作 a 的真实值。

为什么在测试床中以这种方式选择奖励函数，奖励函数如何影响价值估计和图表？

我想我问这个问题的原因是因为我不完全清楚在我对 q*(a) 一无所知的现实世界中奖励是什么样子的。

1个回答

第 2 章测试台中的奖励函数只是所选动作的“真实”平均值，加上一个“噪声项”，即均值为 0、标准差为 1 的正态分布。

噪声与“真”值的初始设置具有相同的分布。不同之处在于您在开始时设置真实值而不更改它们，然后在评估每个奖励时添加噪声。学习者的目标是找到最好的“真实”价值，同时只看到奖励。

当我从问题中阅读时，这符合您的理解。你可以这样写：

初始化：

$\forall a \in A: q_*(a) \leftarrow N(0,1)$

评估：

$R_t = r(A_t) = q_*(A_t) + N(0,1)$

其中是来自正态分布的样本，均值，标准差 $N(\mu,\sigma)$ $\mu$ $\sigma$

为什么在测试床中以这种方式选择奖励函数，奖励函数如何影响价值估计和图表？

对于一个不平凡的老虎机问题，奖励函数需要是随机的，这样就不可能立即发现最佳动作，即使在抽取了很多样本之后，应该采取的最佳动作是什么也存在一些不确定性.

因此，噪音至少会提供一些困难——如果没有它找到最佳动作，那么在 10 种可能噪声并不代表感知中的不确定性（尽管这也可能是现实世界的问题），而是环境响应于动作的可变性。测试示例几乎可以具有任何分布（例如 for），作者做出的选择是描述简洁，对于探索本章中的不同技术很有用。 $argmax$ $p(-1.0|a=1) = 0.9, p(9.0|a=1) = 0.1$ $q_*(a=1) = 0.0$

具体的奖励函数会影响学习图。已经选择了测试台，以便噪声与“真实”值的幅度之比很高。反过来，这意味着值估计将相对较慢地收敛（作为与真实值的比率），并且当按时间步绘制不同的采样和估计技术时，这会暴露出不同的采样和估计技术之间的差异。

回答您的疑虑：

我想我问这个问题的原因是因为我不完全清楚在我对 q*(a) 一无所知的现实世界中奖励是什么样子的。

在现实世界中，您可能需要感知或接收来自环境的奖励。显然这会使测试场景复杂化，并且不会增加对数学的理解，因此测试台只是为问题内部的环境生成一些假想的分布。测试中的“感知”只是假设测试定义的奖励金额。

要成为一个简单（和静态）的老虎机问题，奖励必须在采取行动时立即显现，并且不依赖于当前状态或历史。这在一定程度上限制了问题——它不是完全强化问题。因此，现实世界的例子往往是关于在独立可重复事件上选择有限的赌博。

其它你可能感兴趣的问题

上一篇使用哪种算法来预测某些任务的持续时间下一篇最终模型中的 XGBoost “yes=3,no=4”是什么意思？