我是强化学习的新手。
由于它在 RL 中很常见,- 使用贪婪搜索行为/探索。所以,在训练之初,很高,因此选择了很多随机动作。随着时间的推移,减少,我们经常选择最好的行动。
我想知道,例如在 Q-Learning 中,如果很小,例如 0.1 或 0.01,Q 值真的还在变化吗?他们只是改变了他们的方向,即最好的动作仍然是最好的动作,但 Q 值进一步发散,还是这些值真的再次改变了,所以最好的动作总是在给定的状态下改变?
如果 Q 值确实仍然有很大的变化,是因为我们仍然有剩余的随机动作吗?还是会在?