我一直在阅读有关医疗保健强化学习的文献。我对SARSA和Q-learning的政策评估有点困惑。
据我所知,我相信 SARSA 用于政策评估,以找到遵循现有政策的 Q 值。这通常是临床医生的政策。
另一方面,Q - 学习寻求找到另一种策略,不同于临床医生的策略,使得在不同状态下学习的策略总是最大化 Q - 值。这导致了更好的治疗政策。
假设 Q 值是从两种策略中学习的,如果 Q 学习的 Q 值高于 SARSA 的 Q 值,我们可以说从 Q 学习中学习的策略优于临床医生的吗?
编辑
从阅读中我发现,计算状态-价值函数通常用于比较政策的好坏。我相信必须生成新数据来应用从 Q-learning 中学到的策略,并计算状态值函数以遵循从 Q-learning 中学到的策略。
为什么不能用从SARSA和Q-learning中学到的Q值来做比较呢?此外,对于无模型方法(例如连续状态空间),通常如何进行策略评估?