一般来说,与仅参与者(或基于策略)方法相比,使用参与者评论方法的强化学习有哪些优势?
这不是和Q-learning系列的比较,可能是一种只用演员学习游戏的方法。
我认为只使用演员是有效的,特别是对于稀疏的奖励。那是对的吗?
如果您有任何仅使用演员的特定用例,请告诉我。
一般来说,与仅参与者(或基于策略)方法相比,使用参与者评论方法的强化学习有哪些优势?
这不是和Q-learning系列的比较,可能是一种只用演员学习游戏的方法。
我认为只使用演员是有效的,特别是对于稀疏的奖励。那是对的吗?
如果您有任何仅使用演员的特定用例,请告诉我。
一般来说,与仅参与者(或基于策略)方法相比,使用参与者评论方法的强化学习有哪些优势?
一个实际的好处是批评者可以使用 TD 学习来引导,允许他们在线学习所采取的每一步,并在持续的问题中学习。纯参与者算法(例如 REINFORCE、交叉熵方法)和非 RL 仅策略学习器(例如遗传算法)需要情节问题。他们可以学习的最小单位是一整集。这是因为在没有评论家提供价值估计的情况下,估计回报的唯一方法是从剧集结束时对实际回报进行抽样。
基于 TD 的批评者也可能具有较低的方差,这有助于快速学习和稳定性,尽管这并不总是有好处。基于 TD 的批评者也有偏见,这可能会导致不稳定。请参阅为什么时间差异 (TD) 方法的方差低于蒙特卡洛方法?在 Cross Validated 上了解有关此的更多详细信息。
在实践中,RL 算法选择是一个超参数。除了影响实施难度、CPU 和其他资源成本外,它还会根据所尝试的问题影响学习的好坏。通常,您可以判断一种方法对您的问题更好的唯一方法是尝试所有有效的方法并衡量它们的性能。
我认为只使用演员是有效的,特别是对于稀疏的奖励。那是对的吗?
奖励的稀疏性不是这里的主要因素。这带来的硬信用分配问题意味着代理必须在没有直接反馈的状态下分配一个值或选择一个动作。在其他条件相同的情况下,当价值函数和最优行动选择取决于大量可能变化的未来政策决策和状态转换时,它们都很难解决。
哪种方法最好取决于基于统计的学习器是否更容易近似从状态到预期的未来奖励或到动作的映射。这两个功能可以具有不同程度的复杂性。
例如,策略函数(针对演员)比价值函数(针对批评家或基于价值的方法)更简单,您可以考虑一个简单的追逐环境,其中狼试图在简单的连续平面上捕捉兔子. 代理人是狼,抓到兔子会得到+1的奖励(其他细节我就不多说了,你可以做出很多变化)。
在示例环境中,狼的一个简单策略是转身面对兔子并向前移动。这很容易从狼和兔子的当前位置和面貌映射 - 为了最终轻松,您可以从狼的角度将状态表示为极坐标中兔子的位置和速度。将其与价值函数进行比较 - 它必须预测在给定当前行动选择的情况下到达兔子所需的时间。这是一个基于状态更难表达的函数,因此也可能更难学习。