Q-learning 使用 Q 值的 2D SxA 表,其中 S 是当前状态,A 是采取的行动。是否有一些基于模型的 Q 学习(或 SARSA)变体使用 3D SxAxS' 表来存储 Q 值,其中 S' 是结果状态?
类似的表可用于学习离散环境中的模型,但在这种情况下,您不存储 Q 值,而是计数。
我找不到这样的东西,要么是因为我不知道要搜索的正确术语,要么是因为它不存在。有没有用对我来说无所谓,我只需要知道它是否存在,如果存在,它是如何调用的。
Q-learning 使用 Q 值的 2D SxA 表,其中 S 是当前状态,A 是采取的行动。是否有一些基于模型的 Q 学习(或 SARSA)变体使用 3D SxAxS' 表来存储 Q 值,其中 S' 是结果状态?
类似的表可用于学习离散环境中的模型,但在这种情况下,您不存储 Q 值,而是计数。
我找不到这样的东西,要么是因为我不知道要搜索的正确术语,要么是因为它不存在。有没有用对我来说无所谓,我只需要知道它是否存在,如果存在,它是如何调用的。
状态-动作值的概念是表示处于特定状态并根据预期的未来奖励执行特定动作的程度。根据我从您的问题中了解到的情况,您对模型不确定性问题(系统动力学的不确定性)感兴趣。换句话说,我们的人工代理在未知环境中进行交互(过渡动态和奖励动态或者是未知的)。
您应该看看的框架是基于贝叶斯模型的 RL。我概述了一种方法,以便您有一个想法:
首先假设我们对环境的转变有不确定性. 为了解决这个问题,我们将假设我们的代理在可能的转换中保持分布。在不涉及理论数学的情况下,我将使用一个简单的 Dirchlet-Multinomial 模型来说明这一点:
状态是从多项似然中采样的并且我们假设转换的先验, 在哪里设定为, 哪里是状态空间。由于似然分布和先验分布的共轭,后验过度转换也将是狄利克雷。要更新这样的后验,您需要执行简单的代数计算并维护每个转换的计数。
代理执行两个过程:
最终,如果您为您的域选择了合适的分布,代理将适应未知环境。当然,具有非共轭的更丰富的先验将导致 MCMC 采样方法。我向您推荐这篇论文以了解问题的概述:基于模型的贝叶斯探索和相当先进的:贝叶斯自适应 MDP,以进行进一步的研究和探索。
您可以查看拟合的 Q 迭代(这里是 pdf),这是一种基于模型的 Q 学习。我不确定这是否正是您正在寻找的。