Q-learning 是一种基于模型的强化学习吗?

人工智能 强化学习 q学习 定义 基于模型的方法
2021-10-26 15:24:08

基于模型的 RL 创建转换函数的模型。

表格 Q-Learning 迭代地执行此操作(不直接优化转换函数)。那么,这是否使表格 Q 学习成为一种基于模型的强化学习?

2个回答

表格 Q-Learning 没有明确创建转换函数的模型。它不会生成任何输出,您可以随后将其用作函数来预测下一个状态s'将被赋予当前状态s和动作a(这是转换函数允许您执行的操作)。所以不,Q-learning 仍然是无模型的。

顺便说一句,基于模型的 RL 不一定必须涉及创建转换函数的模型。基于模型的 RL 也可能意味着您假设已经给出了这样的函数。它只是意味着你以某种方式使用了这样的功能。

在基于模型的学习中,学习代理利用先前学习的模型来完成任务,而无模型 RL 不使用环境来学习,而只是依靠试错经验来选择动作。相似之处在于,在这两种方法中,学习代理都试图从其行为中获得最大回报。

Q-Learning 是一种无模型的强化学习方法。它可用于为任何给定的有限马尔可夫决策过程识别最佳动作选择策略。它的工作原理是学习一个动作价值函数,该函数本质上给出了在给定状态下动作的预期效用,然后遵循最优策略。