数据挖掘 - Q-Learning 如何处理混合策略？ - 吾爱随笔录

数据挖掘机器学习强化学习 q学习

2022-03-06 02:41:31

我试图了解 Q-learning 如何处理最优策略是混合策略的游戏。贝尔曼方程说你应该选择 $max_a(Q(s,a))$ 但这意味着每个人都有一个独特的行动 $s$ . 如果您认为问题具有混合策略，那么 Q-learning 是否不合适？

1个回答

一种可能性是使用 softmax 并以概率随机选择每个动作 $p = \frac{\exp(Q(s,a))}{\sum_a \exp(Q(s,a))}$ . 我不认为它仍然是 Q 学习。

其它你可能感兴趣的问题