我对强化学习中的两个术语——行动和政策——感到困惑。据我所知,行动是:
这是代理在给定状态下所做的。
但是,我现在正在阅读的书(Hands-On Reinforcement Learning with Python)写了以下内容来解释策略:
我们将告诉我们在每个州做什么的实体定义为政策。
现在,我觉得政策和行动是一样的。那么两者有什么区别,我该如何正确分开使用它们呢?
我对强化学习中的两个术语——行动和政策——感到困惑。据我所知,行动是:
这是代理在给定状态下所做的。
但是,我现在正在阅读的书(Hands-On Reinforcement Learning with Python)写了以下内容来解释策略:
我们将告诉我们在每个州做什么的实体定义为政策。
现在,我觉得政策和行动是一样的。那么两者有什么区别,我该如何正确分开使用它们呢?
策略是将状态映射到所有可能动作的概率分布的函数。
因此,在典型的 Atari 游戏中,可能只有少数动作,由用于玩游戏的键表示。在这种情况下,强化学习器的策略可能由一个非常复杂的神经网络来表示,该网络将像素作为输入并给出动作概率作为输出。