我是强化学习的新手。
由于它在 RL 中很常见,- 使用贪婪搜索行为/探索。所以,在训练之初,很高,因此选择了很多随机动作。随着时间的推移,减少,我们经常选择最好的行动。
我想知道,例如在 Q-Learning 中,如果很小,例如 0.1 或 0.01,Q 值真的还在变化吗?他们只是改变了他们的方向,即最好的动作仍然是最好的动作,但 Q 值进一步发散,还是这些值真的再次改变了,所以最好的动作总是在给定的状态下改变?
如果 Q 值确实仍然有很大的变化,是因为我们仍然有剩余的随机动作吗?还是会在?
我是强化学习的新手。
由于它在 RL 中很常见,- 使用贪婪搜索行为/探索。所以,在训练之初,很高,因此选择了很多随机动作。随着时间的推移,减少,我们经常选择最好的行动。
我想知道,例如在 Q-Learning 中,如果很小,例如 0.1 或 0.01,Q 值真的还在变化吗?他们只是改变了他们的方向,即最好的动作仍然是最好的动作,但 Q 值进一步发散,还是这些值真的再次改变了,所以最好的动作总是在给定的状态下改变?
如果 Q 值确实仍然有很大的变化,是因为我们仍然有剩余的随机动作吗?还是会在?
多少钱-values 的变化不依赖于,而是值指示您采取随机行动并因此采取可能导致较大 TD 误差的行动的可能性有多大——这是您预期采取该行动的回报与您实际观察到的回报之间的巨大差异。多少钱- 值变化取决于此 TD 误差的大小。
- 如果没有探索,学习不能保证收敛。收敛标准的一部分假设每个状态-动作对将在无限数量的情节中被无限频繁地访问,因此如果没有探索,那么这将不会发生。