我有一个很大的一维动作空间,例如 dim(A)=2000-10000。我可以使用连续动作空间来学习高斯分布的均值和标准差,我将使用这些空间对动作进行采样并将值四舍五入到最接近的整数?如果是的话,我可以把这个想法扩展到多维大动作空间吗?
可以使用高斯分布来表示大的离散动作空间吗?
人工智能
强化学习
深度学习
连续动作空间
离散动作空间
2021-11-12 10:00:54
1个回答
答案是“视情况而定”。将动作安排好后,一个关键特征是动作值函数是否具有足够简单的形状,从高斯策略函数中采样会产生一致的预期回报,足以进行学习。如果底层的“真实”价值函数有很多高频噪声,那么学习就会很慢。在最坏的情况下,如果动作值和不相关,那么根本不可能用近似值来学习。
您可能对类似的操作有一些了解和是。如果动作代表不同的顺序选择,例如选择整数个项目来执行某些任务,例如买/卖或运输,那么在许多环境中,选择的结果之间通常会有很强的相关性,例如和. 如果这普遍成立,那么这是一个很好的指标,你可以对待作为连续的,并使用简单分布函数的学习参数来找到最佳策略(此外,这可能比使用离散表示更有效)。
对于一小部分病例,结果之间的差异可能并不重要和很大,前提是最优策略的逐次逼近可以通过调整均值提高到最优和标准差.
可能仍然存在无法通过近似学习的困难案例——例如,如果一个特定的动作对于给定状态是最优的, 但和差很多,那么典型的策略梯度方法的训练过程可能永远不会解决和,因为起始策略和最优策略之间的任何中间值都会表现不佳。
为了扩展到更多维度,相同的想法分别适用于每个维度。您可能想要使用不同的分布,甚至有一个维度使用带有几个参数的连续模型,而另一个维度保持离散,每个选择都有一个自由参数。