在 DQN 中,是否会更便宜ñN具有单个实值输出的神经网络,每个输出一个ñN行动?

人工智能 强化学习 q学习 深度学习 dqn
2021-11-01 10:48:39

在深度 q 学习的经典例子中,我经常看到神经网络,其中输入表示代理的状态,而输出是一个包含所有值的元组Q(s,a)预测所有可能的N行动。

拥有会不会更便宜N具有单个实值输出的神经网络,每个输出一个N行动?

更便宜是指网络单个训练步骤的时间复杂度更便宜。

1个回答

拥有会不会更便宜N具有单个实值输出的神经网络,每个输出一个N行动?

我认为“没有免费午餐”定理在这里适用,或者类似的东西。

在许多情况下,您提出的架构将是一个不寻常的选择,但在其他情况下可能更有效。例如,在以下情况下它可能更有效:

长期价值高度依赖于即时行动选择,并且以不同的方式依赖于状态变量,具体取决于具体行动。这意味着单个 NN 很难在其层中创建共享特征,并且您可以通过将每个动作视为不同的预测问题来节省处理。

这只是一个有根据的猜测。

像往常一样,确定答案的唯一方法是尝试不同的方法并进行比较。我认为除了经验和一点直觉之外没有什么可以指导你的。