我正在运行具有有限时间范围的 Q 学习算法。如果某些州可能不会被多次访问,那么“乐观的初始条件”是否仍然是首选?
Q-Learning 中的初始 Q 值
数据挖掘
机器学习
强化学习
q学习
2022-03-05 09:42:38
0个回答
没有发现任何回复~
其它你可能感兴趣的问题