Q-Learning 如何处理混合策略?

数据挖掘 机器学习 强化学习 q学习
2022-03-06 02:41:31

我试图了解 Q-learning 如何处理最优策略是混合策略的游戏。贝尔曼方程说你应该选择maxa(Q(s,a))但这意味着每个人都有一个独特的行动s. 如果您认为问题具有混合策略,那么 Q-learning 是否不合适?

1个回答

一种可能性是使用 softmax 并以概率随机选择每个动作p=exp(Q(s,a))aexp(Q(s,a)). 我不认为它仍然是 Q 学习。