这是取自 Sutton & Barto 书中的 Short Corridor 问题。这里是这样写的:
这个问题很困难,因为在函数逼近下所有状态看起来都是相同的
但这没有多大意义,因为我们总是可以选择状态为 0,1,2 和对应的特征向量为
x(S = 0,右) = [1 0 0 0 0 0]
x(S = 0, 左) = [0 1 0 0 0 0]
x(S = 1,右) = [0 0 1 0 0 0 ]
x(S = 1 , 左) = [0 0 0 1 0 0]
x(S = 2, 右) = [0 0 0 0 1 0]
x(S = 2 , 左) = [0 0 0 0 0 1]\
那么为什么在函数逼近下所有的状态看起来都是一样的呢?