关于 RL,model-free 和 off-policy 是一回事,只是术语不同吗?如果不是,有什么区别?我读过该策略可以被认为是机器学习应用程序的“大脑”或决策部分,它存储其学习并在新状态下需要新动作时引用它。
无模型算法和离策略算法相同吗?
关于 RL,model-free 和 off-policy 是一回事,只是术语不同吗?
不,它们是完全不同的术语,唯一的共同点是它们都是 RL 代理可以改变的两种方式。代理通常要么在策略外工作,要么在策略上工作,并且通常是基于模型的或无模型的。这些东西可能会出现在所有四种组合中。
如果不是,有什么区别?
基于模型与无模型
基于模型的学习代理使用环境动态知识来预测预期结果。无模型学习代理不使用此类知识。此处的模型可能由开发人员明确提供 - 这可能是用于预测机械系统的物理代码,或者可能是允许代理知道和查询以在采取行动之前预测行动结果的棋盘游戏规则. 模型也可以从经验中统计地学习,尽管这更难有效。
政策内与政策外
策略上的代理从统计上了解它当前的行为方式,并假设存在控制问题,然后使用该知识来改变它未来应该如何行为。离策略代理可以从其他观察到的行为(包括其自己的过去行为,或随机和探索性行为)中进行统计学习,并使用该知识来了解不同的目标行为将如何执行。
Off-policy learning 是on-policy learning 的严格概括,包括on-policy 作为一个特例。然而,off-policy 学习通常也更难执行,因为观察通常包含较少相关的数据。
我读过该策略可以被认为是机器学习应用程序的“大脑”或决策部分,它存储其学习并在新状态下需要新动作时引用它。
在考虑代理如何学习如何在环境中表现时,这基本上是正确的。
您在这里为单词策略分配了太多内容。严格来说,策略只是从状态到动作(或动作的概率分布)的映射,通常写成,即采取行动的概率鉴于代理处于状态. “大脑”部分可能包括代理如何学习该策略。这可能包括在例如神经网络中存储过去的经验或过去经验的一些总结。
然而,在机器学习环境之外,一个包含 if/then 语句的非常简单的函数也将是一个策略,如果函数的输入是环境状态,而输出是一个动作或采取一系列的概率行动。完全随机的行为也是一种策略,但在非常特定的环境(例如石头/纸/剪刀)之外,这通常不是最佳选择。