代理的推理能力如何提高其强化学习?

人工智能 强化学习 人工意识 推理
2021-10-27 22:55:50

代理可以具有推理技能(预测、计算猜测等),这些技能可以帮助该代理的强化学习。当然,强化学习本身可以帮助培养推理能力。是否有研究探讨推理和意识对强化学习效果的影响。或者,也许人们只是坐等这些技能在强化学习中出现?

1个回答

听起来您正在描述解决MDP 问题的两种竞争方法的综合。

在强化学习中,我们通过让代理在其环境中移动、观察奖励和响应其所采取的行动的转换来解决 MDP 问题,并建立一个行动和奖励之间的关系模型,使其能够最大化奖励。

一种较旧的方法是向代理提供有关世界的事实,这些事实可以编码为逻辑规则。然后,代理使用统一来推理该规则框架内行动的后果。然后,在给定规则和手头信息的情况下,代理会采取行动来最大化它可以预期的回报。这种方法的一个问题是它在具有概率规则的问题域中不能很好地工作(即 X通常在采取行动 Y 时发生)。

介于这两者之间的一种混合方法是使用价值迭代或策略迭代方法。这些是所谓的“基于模型”的强化学习算法(尽管我倾向于说这使得它们不同于真正的强化学习......)。与旧的基于逻辑的方法一样,它们首先写下一系列完全描述世界上事物如何发生的规则,然后推导出这些规则的逻辑结果,以计算代理可以采取的最佳行动。然而,与强化学习一样,它们能够解释概率规则和概率奖励。如果你有一个机会游戏的准确描述,你可以把它写成一个 MDP,然后使用这些技术准确地解决它。

重要的是,如果状态和动作空间非常大(通常是这样),价值和策略迭代方法是不可行的,如果不确切知道 MDP(即,如果你不知道游戏提前)。这就是强化学习大放异彩的地方。