在 Thompson 抽样中对正态分布进行归一化以进行在线强化学习

人工智能 强化学习 在线学习 正常化 汤普森抽样 正态分布
2021-11-01 02:30:28

在我为在线强化学习实施 Thompson Sampling (TS) 时,我的分布用于选择aN(Q(s,a),1C(s,a)+1), 在哪里C(s,a)是次数a已被选中s.

但是,我发现这在某些情况下效果不佳,具体取决于Q(s,a). 例如,如果Q(si,a1)=100, 和C(si,a1)=1,那么这给出了 0.5 的标准偏差,即使该动作只被选择了一次,这也是非常有信心的。比较一下a2这可能是最佳动作,但从未被选中,所以Q(si,a2)=0C(si,a2)=0. TS不太可能选择a2.

那么,我该如何解决这个问题呢?

我尝试对 Q 值进行归一化,使其范围从 0 到 1,但该算法返回的总回报要低得多。我想我也必须调整相对于 Q 值的标准偏差的大小。为 1 个正态分布执行此操作非常简单,但我无法弄清楚如何为必须考虑其他分布的多个分布执行此操作。

编辑:计数应该是C(s,a)代替C(s)正如尼尔指出的那样

0个回答
没有发现任何回复~