数据挖掘 - 强化学习的结果 - 吾爱随笔录

强化学习的结果

数据挖掘机器学习强化学习

2022-02-19 11:31:57

我已经开始阅读一些关于强化学习的文献，但我无法理解应用 RL 的结果是什么。我会更具体：让我们在连续状态空间、有限数量的动作和策略函数的线性逼近器中处理时间序列问题。所以我遵循一种算法来找到最佳策略，即在这种特定情况下，我考虑过的线性函数权重的最佳值。现在我的疑问就在这里：所谓的最佳策略是在应用算法的过程中找到的，或者我必须取最终的最优值，并且对于每个时期，我必须使用它们来找出哪个动作使动作最大化-价值函数？换句话说，RL 的结果是在每个时间步（重新）应用的经典函数，就好像它是回归一样？我认为这个问题的答案是否定的，但如果有人能证实这一点，我将不胜感激。

（为了更好地解释我所说的“在应用算法的过程中发现的策略”的意思，让我们考虑这个愚蠢的考虑：最好的策略还包括那些探索的时间步骤）

2个回答

因此，您似乎对一些事情感到困惑。简短的回答是否定的。

在强化学习 (RL) 中，目标是学习在马尔可夫决策过程 (MDP) 中采取行动以最大化奖励的策略。如果您的问题可以描述为马尔可夫决策过程，那么 RL 可能是一个很好的解决方案。理论结果表明，通过适当的退火、线性策略、连续状态空间、有限动作，“Q-Learning”RL 算法将收敛到最优线性策略，其中 Q-Learning 学习从 (state, action) 映射的函数到预期的折扣奖励总和。

马尔可夫决策过程最容易被认为是一个图。在一个“情节”中，我们有一个初始状态（图的节点），然后在每个步骤中，我们（沿边）转换到另一个状态（节点），直到我们达到（或可能永远不会达到）结束情节的终端状态. 在每一步中，我们还会选择一个动作并获得奖励。每一步之后你转换到什么状态是随机的，但是“转换概率”是你当前状态和选择的动作 [ ] 的函数，我们的奖励是随机的，但是概率是我们当前状态、动作和结果状态的函数 [ $P(s')=f(s,a)$ $P(r)=f(s,a,s')$ ]。我们的目标是最大化该奖励的预期总和（技术上的折扣总和）。实际上，我们在这个图上从一个节点到另一个节点随机弹跳，采取影响我们目标节点的行动，并收集奖励。在您的情况下，图形不是必要的抽象，而是我们的状态是连续向量。

Q-Learning（和一般的 RL 算法）通过在我们的 MDP 中播放重复剧集来学习，学习优化折扣的奖励总和。在每一集之后，Q-Learning 更新一个学习函数，该函数从（状态、动作）映射到预期的折扣奖励总和。算法权衡他们学到的“利用”模式以获得奖励，并“探索”新的（状态、动作）对。所以算法不一定是在训练时最大化奖励。

所以回答你的问题。Q-learning 不会在剧集中学习。它会在每一集之后更新学习到的函数，最终收敛到你的最终策略。最终策略就是您在应用程序中使用的策略。该策略是从观察到的状态和动作映射到预期奖励的函数。只要在剧集中或从剧集到剧集没有变化的“隐藏”或“未观察到的”信息，这就会起作用。如果存在“隐藏”信息，则 RL/MDP 可能不适合。相反，它可能是“POMDP”，它需要除 RL 之外的其他工具来解决。此外，如果您无法重置环境并运行多个情节，那么 RL/POMDP/MDP 将不适合。话虽如此，很多人已经成功地将 RL 应用于不符合这些规则的问题（例如多智能体强化学习）。因此，如果您的问题不适合，这更像是一个警告而不是规则。

RL 的结果是在每个时间步（重新）应用的经典函数吗？
在某种程度上是的，当使用 RL 寻找最佳策略时，您最终会得到一个可以描述为从可能状态到可能动作的函数（经典与否）的策略。

好像是一种回归？
不，回归算法“解决”了特征空间和目标空间之间的函数。
在 RL 中，这两个空间都没有（非常不同的）含义。
此外，RL 算法考虑了多步预测（状态转换 + 奖励），这在回归问题中并不是很直接。

其它你可能感兴趣的问题

上一篇感应式 GCN 和感应式 GraphSAGE 之间的模型架构差异是什么？下一篇如何预测贝叶斯线性回归中的新/未知数据？