第 2 章测试台中的奖励函数只是所选动作的“真实”平均值,加上一个“噪声项”,即均值为 0、标准差为 1 的正态分布。
噪声与“真”值的初始设置具有相同的分布。不同之处在于您在开始时设置真实值而不更改它们,然后在评估每个奖励时添加噪声。学习者的目标是找到最好的“真实”价值,同时只看到奖励。
当我从问题中阅读时,这符合您的理解。你可以这样写:
初始化:
- ∀a∈A:q∗(a)←N(0,1)
评估:
- Rt=r(At)=q∗(At)+N(0,1)
其中是来自正态分布的样本,均值,标准差N(μ,σ)μσ
为什么在测试床中以这种方式选择奖励函数,奖励函数如何影响价值估计和图表?
对于一个不平凡的老虎机问题,奖励函数需要是随机的,这样就不可能立即发现最佳动作,即使在抽取了很多样本之后,应该采取的最佳动作是什么也存在一些不确定性.
因此,噪音至少会提供一些困难——如果没有它找到最佳动作,那么在 10 种可能噪声并不代表感知中的不确定性(尽管这也可能是现实世界的问题),而是环境响应于动作的可变性。测试示例几乎可以具有任何分布(例如 for),作者做出的选择是描述简洁,对于探索本章中的不同技术很有用。argmaxp(−1.0|a=1)=0.9,p(9.0|a=1)=0.1q∗(a=1)=0.0
具体的奖励函数会影响学习图。已经选择了测试台,以便噪声与“真实”值的幅度之比很高。反过来,这意味着值估计将相对较慢地收敛(作为与真实值的比率),并且当按时间步绘制不同的采样和估计技术时,这会暴露出不同的采样和估计技术之间的差异。
回答您的疑虑:
我想我问这个问题的原因是因为我不完全清楚在我对 q*(a) 一无所知的现实世界中奖励是什么样子的。
在现实世界中,您可能需要感知或接收来自环境的奖励。显然这会使测试场景复杂化,并且不会增加对数学的理解,因此测试台只是为问题内部的环境生成一些假想的分布。测试中的“感知”只是假设测试定义的奖励金额。
要成为一个简单(和静态)的老虎机问题,奖励必须在采取行动时立即显现,并且不依赖于当前状态或历史。这在一定程度上限制了问题——它不是完全强化问题。因此,现实世界的例子往往是关于在独立可重复事件上选择有限的赌博。