人工智能 - 强化学习中的政策和行动有什么区别？ - 吾爱随笔录

人工智能强化学习术语比较

2021-10-31 15:48:22

我对强化学习中的两个术语——行动和政策——感到困惑。据我所知，行动是：

这是代理在给定状态下所做的。

但是，我现在正在阅读的书（Hands-On Reinforcement Learning with Python）写了以下内容来解释策略：

我们将告诉我们在每个州做什么的实体定义为政策。

现在，我觉得政策和行动是一样的。那么两者有什么区别，我该如何正确分开使用它们呢？

1个回答

策略是将状态映射到所有可能动作的概率分布的函数。

因此，在典型的 Atari 游戏中，可能只有少数动作，由用于玩游戏的键表示。在这种情况下，强化学习器的策略可能由一个非常复杂的神经网络来表示，该网络将像素作为输入并给出动作概率作为输出。

其它你可能感兴趣的问题