在我为在线强化学习实施 Thompson Sampling (TS) 时,我的分布用于选择是, 在哪里是次数已被选中.
但是,我发现这在某些情况下效果不佳,具体取决于. 例如,如果, 和,那么这给出了 0.5 的标准偏差,即使该动作只被选择了一次,这也是非常有信心的。比较一下这可能是最佳动作,但从未被选中,所以和. TS不太可能选择.
那么,我该如何解决这个问题呢?
我尝试对 Q 值进行归一化,使其范围从 0 到 1,但该算法返回的总回报要低得多。我想我也必须调整相对于 Q 值的标准偏差的大小。为 1 个正态分布执行此操作非常简单,但我无法弄清楚如何为必须考虑其他分布的多个分布执行此操作。
编辑:计数应该是代替正如尼尔指出的那样