使用 Q-Learning 时,Q_0(a) 与所有值为零、随机或乐观有什么区别?
Q-Learning 中不同的初始 Q 值
数据挖掘
强化学习
q学习
2022-02-18 07:55:52
1个回答
从长远来看,无论初始化如何,表格 Q 学习都会收敛到最优值。
但是,收敛速度可能会受到影响,类似于 n 臂老虎机设置:http: //incompleteideas.net/book/first/ebook/node21.html
有关 Q 学习中初始化的更多信息,我推荐 Eric Wiewiora 的“基于电位的整形和 Q 值初始化是等效的”。
其它你可能感兴趣的问题