10武装试验台的奖励功能是什么?

数据挖掘 强化学习
2022-02-16 16:41:57

Sutton & Barto 关于强化学习的书第 2 章“强盗问题”中提到了 10 个武装测试台:

为了粗略评估贪婪和ε-贪婪方法的相对有效性,我们在一组测试问题上对它们进行了数值比较。这是一组 2000 个随机生成的 n 臂老虎机任务,n = 10。对于每个老虎机,动作值是根据均值为 0 和方差为 1 的正态(高斯)分布选择的。在给定老虎机的第 t时间步上,实际奖励是老虎机的(其中是动作选择)加上一个正态分布的噪声项,平均值为 0,方差为 1 [. . . .] 我们将这套测试任务称为 10 臂测试台。q(a),a=1,...,10,Rtq(At)At

10武装试验台的奖励功能是什么?我将其解释为 q*(a) + 一些通常的随机值。其中 q*(a) 是动作 a 的真实值。

为什么在测试床中以这种方式选择奖励函数,奖励函数如何影响价值估计和图表?

我想我问这个问题的原因是因为我不完全清楚在我对 q*(a) 一无所知的现实世界中奖励是什么样子的。

1个回答

第 2 章测试台中的奖励函数只是所选动作的“真实”平均值,加上一个“噪声项”,即均值为 0、标准差为 1 的正态分布。

噪声与“真”值的初始设置具有相同的分布。不同之处在于您在开始时设置真实值而不更改它们,然后在评估每个奖励时添加噪声。学习者的目标是找到最好的“真实”价值,同时只看到奖励。

当我从问题中阅读时,这符合您的理解。你可以这样写:

初始化:

  • aA:q(a)N(0,1)

评估:

  • Rt=r(At)=q(At)+N(0,1)

其中是来自正态分布的样本,均值,标准差N(μ,σ)μσ

为什么在测试床中以这种方式选择奖励函数,奖励函数如何影响价值估计和图表?

对于一个不平凡的老虎机问题,奖励函数需要是随机的,这样就不可能立即发现最佳动作,即使在抽取了很多样本​​之后,应该采取的最佳动作是什么也存在一些不确定性.

因此,噪音至少会提供一些困难——如果没有它找到最佳动作,那么在 10 种可能噪声并不代表感知中的不确定性(尽管这也可能是现实世界的问题),而是环境响应于动作的可变性。测试示例几乎可以具有任何分布(例如 for),作者做出的选择是描述简洁,对于探索本章中的不同技术很有用。argmaxp(1.0|a=1)=0.9,p(9.0|a=1)=0.1q(a=1)=0.0

具体的奖励函数会影响学习图。已经选择了测试台,以便噪声与“真实”值的幅度之比很高。反过来,这意味着值估计将相对较慢地收敛(作为与真实值的比率),并且当按时间步绘制不同的采样和估计技术时,这会暴露出不同的采样和估计技术之间的差异。

回答您的疑虑:

我想我问这个问题的原因是因为我不完全清楚在我对 q*(a) 一无所知的现实世界中奖励是什么样子的。

在现实世界中,您可能需要感知或接收来自环境的奖励。显然这会使测试场景复杂化,并且不会增加对数学的理解,因此测试台只是为问题内部的环境生成一些假想的分布。测试中的“感知”只是假设测试定义的奖励金额。

要成为一个简单(和静态)的老虎机问题,奖励必须在采取行动时立即显现,并且不依赖于当前状态或历史。这在一定程度上限制了问题——它不是完全强化问题。因此,现实世界的例子往往是关于在独立可重复事件上选择有限的赌博。