人工智能 - 为什么在 Short Corridor 任务中的函数逼近下所有状态看起来都相同？ - 吾爱随笔录

为什么在 Short Corridor 任务中的函数逼近下所有状态看起来都相同？

人工智能强化学习环境函数逼近萨顿巴托

2021-10-20 10:06:29

这是取自 Sutton & Barto 书中的 Short Corridor 问题。这里是这样写的：

这个问题很困难，因为在函数逼近下所有状态看起来都是相同的

但这没有多大意义，因为我们总是可以选择状态为 0,1,2 和对应的特征向量为

x(S = 0,右) = [1 0 0 0 0 0]
x(S = 0, 左) = [0 1 0 0 0 0]
x(S = 1,右) = [0 0 1 0 0 0 ]
x(S = 1 , 左) = [0 0 0 1 0 0]
x(S = 2, 右) = [0 0 0 0 1 0]
x(S = 2 , 左) = [0 0 0 0 0 1]\

那么为什么在函数逼近下所有的状态看起来都是一样的呢？

2个回答

您可以选择这些状态，但代理是否知道它所处的状态？从文字来看，似乎agent无法区分这三种状态。它的观察功能是完全没有信息的。

这就是为什么需要随机策略的原因。这对于 POMDP 来说很常见，而对于常规的 MDP，我们总能找到一个确定性的策略来保证是最优的。

在像 Short Corridor 任务这样的玩具问题中，您可以选择状态表示来探索关键属性，例如特定方法解决它的能力。通常这样做是极端的并且被大大简化了。

这就是这里发生的事情。允许代理使用的状态空间相对于问题高度退化。这代表了可能更复杂的部分可观察系统，但以一种对读者来说非常清楚的方式。此外，仍然可以通过分析得出最佳策略应该是什么，因此可以检查方法，以确定它们如何处理核心问题（这里，状态数据是模棱两可的）。

其它你可能感兴趣的问题

上一篇马尔可夫决策过程中的代理是否知道状态转移矩阵？下一篇SARSA 和 Q-Learning 何时收敛到最优 Q 值？