为什么在 Short Corridor 任务中的函数逼近下所有状态看起来都相同?

人工智能 强化学习 环境 函数逼近 萨顿巴托
2021-10-20 10:06:29

这是取自 Sutton & Barto 书中的 Short Corridor 问题。这里是这样写的:

这个问题很困难,因为在函数逼近下所有状态看起来都是相同的

但这没有多大意义,因为我们总是可以选择状态为 0,1,2 和对应的特征向量为

x(S = 0,右) = [1 0 0 0 0 0]
x(S = 0, 左) = [0 1 0 0 0 0]
x(S = 1,右) = [0 0 1 0 0 0 ]
x(S = 1 , 左) = [0 0 0 1 0 0]
x(S = 2, 右) = [0 0 0 0 1 0]
x(S = 2 , 左) = [0 0 0 0 0 1]\

那么为什么在函数逼近下所有的状态看起来都是一样的呢?

在此处输入图像描述

2个回答

您可以选择这些状态,但代理是否知道它所处的状态?从文字来看,似乎agent无法区分这三种状态。它的观察功能是完全没有信息的。

这就是为什么需要随机策略的原因。这对于 POMDP 来说很常见,而对于常规的 MDP,我们总能找到一个确定性的策略来保证是最优的。

在像 Short Corridor 任务这样的玩具问题中,您可以选择状态表示来探索关键属性,例如特定方法解决它的能力。通常这样做是极端的并且被大大简化了。

这就是这里发生的事情。允许代理使用的状态空间相对于问题高度退化。这代表了可能更复杂的部分可观察系统,但以一种对读者来说非常清楚的方式。此外,仍然可以通过分析得出最佳策略应该是什么,因此可以检查方法,以确定它们如何处理核心问题(这里,状态数据是模棱两可的)。