“已知环境”和“确定性环境”这两个概念有什么区别?

人工智能 强化学习 比较 术语 诺维格罗素
2021-11-04 19:43:12

根据《人工智能:一种现代方法》一书,“在已知环境中,所有动作的结果(或如果环境是随机的,则为结果概率)是给定的。”,而在确定性环境中,“下一个状态环境完全由当前状态和代理执行的动作决定……”。

这两个术语有什么区别?他们的意思不是一样的吗?

1个回答

这两个术语有什么区别?他们的意思不是一样的吗?

它们意味着不同的东西,并且可以以任何组合出现。

已知的确定性环境

这是一个研究人员知道如何在观察它们之前计算所有转换的环境,以及从状态的转换s给定动作a总是到相同的下一个状态s以同样的回报r.

示例:针对固定对手的任何经典棋盘游戏(在任何情况下都允许选择行动,对手总是在相同情况下选择相同的选择)

一个未知的、确定性的环境

在这种环境中,研究人员不具备在观察它们之前计算所有转换的知识,但是任何观察都是从状态的转换s给定动作a总是到相同的下一个状态s以同样的回报r.

示例:简单的机械物理环境,其中初始测量未知、不精确或研究人员不想将它们的知识编码到代理中。例如极平衡。

已知的随机环境

在这个环境中,研究人员知道所有关于转换的规则,但这些规则包括带有随机元素的转换。从状态转换s给定动作a根据一些概率函数变化p(s|s,a)奖励也可能如此p(r|s,a)- 有时组合成联合概率函数p(r,s|s,a).

示例:任何涉及骰子的棋盘游戏,例如双陆棋。

未知的随机环境

这是一个研究人员不知道所有规则的环境,或者只能很难或精度较低地计算预期结果。从状态转换s给定动作a根据一些未知的概率函数变化p(r,s|s,a). 学习转移函数可能需要很多样本s,a,这将是一个统计近似值。

示例:在实践中,最复杂的环境,包括具有摩擦、流体、非完美测量的真实世界物理。

出于实验目的,在技术上已知的环境中进行模拟是很常见的(因为研究人员编写了它,或者可以访问代码和底层模型),但是最后编写代理是为了像这样对待它,更具挑战性案件。无需事先了解环境就可以弄清楚如何行动的代理通常很受关注。