Q Learning 可以在每个步骤的静态状态下工作吗?
我的意思是,这些动作根本不会影响下面的状态。这些情节只是一遍又一遍地迭代相同的数据。当然,不同的行为会导致不同的奖励,但是在这种情况下,Q Learning 是正确的概念吗?你还能推荐什么其他类型?
Q Learning 可以在每个步骤的静态状态下工作吗?
我的意思是,这些动作根本不会影响下面的状态。这些情节只是一遍又一遍地迭代相同的数据。当然,不同的行为会导致不同的奖励,但是在这种情况下,Q Learning 是正确的概念吗?你还能推荐什么其他类型?
您描述的框架是 Bandits 框架。Bandits 是解决无状态 MDP 的算法。因此,从动作影响到下一个状态的转换的意义上说,问题不是连续的。看看Python Jupyter notebook 附带的一个不错的Contextual Bandits教程。请注意,Contextual Bandits 是 Bandit 的一个特殊类别,但至少您会接触到一般 Bandit 的想法和形式化。
您可以尝试 Q 学习,但使用 Rescorla-Wagner 规则作为奖励校正没有任何意义,因为没有过渡到 a随后的状态s'。