在DQN 论文中,写到状态空间是高维的。我对这个术语有点困惑。
假设我的状态是长度的高维向量, 在哪里是一个巨大的数字。假设我使用-学习,我将状态空间固定为向量,每个方面。-learning 可以轻松地使用这些设置,因为我们只需要一个维度表x 动作数。
假设我的状态空间可以有无数个向量方面。在这些设置中,Q 学习将失败,因为我们无法将每个无限向量的 Q 值存储在表中。另一方面,DQN 很容易工作,因为神经网络可以泛化状态空间中的其他向量。
假设我有一个无限向量的状态空间,但是每个向量现在都有长度,即小维向量。在这些设置中使用 DQN 有意义吗?这个状态空间应该被称为高维还是低维?