我试图了解 Q-learning 如何处理最优策略是混合策略的游戏。贝尔曼方程说你应该选择但这意味着每个人都有一个独特的行动. 如果您认为问题具有混合策略,那么 Q-learning 是否不合适?
Q-Learning 如何处理混合策略?
数据挖掘
机器学习
强化学习
q学习
2022-03-06 02:41:31
1个回答
一种可能性是使用 softmax 并以概率随机选择每个动作. 我不认为它仍然是 Q 学习。
其它你可能感兴趣的问题