关于演员评论家强化学习算法的神经网络架构的困惑
数据挖掘
神经网络
张量流
强化学习
2021-10-15 16:56:30
1个回答
两种架构都有效。可能更常见的是使用两个独立的网络来解决更简单的问题,而使用组合网络来解决更复杂的问题,例如涉及机器视觉的问题。
通常,您需要将两个功能 - 策略和价值 - 分开。就从状态到输出的整体映射而言,没有理由期望它们有太多共同点。但是,如果状态需要大量非线性解释才能获得有意义的特征,例如图像、音频或视频输入,那么如果这两个函数共享较低级别的特征表示,这可能是一个整体的好处。这不仅会鼓励对低级特征进行更好的通用学习(因为与它们分开时相比,它们每个时间步的数据有效地是两倍),而且计算也应该更快。
出于类似的原因,如果代理使用自然图像工作,您可以使用在 ImageNet 上训练的某些模型的上层的预处理特征,或者您可以使用此类模型的第一层初始化网络。这可能也适用于其他 RL 代理,例如 DQN - 如果这有效,那么当您有多个功能要处理时,清楚地共享网络的该部分也可以工作。
如果您的状态数据比较简单,例如几个位置和速度,或者策略和值中的一个/两者与状态有简单的关系,那么联合网络可能就没那么有用了。
当策略和价值函数在共享网络中时,它们可能仍然有多个专用层,因为预计这两个函数之间没有任何简单的线性关系(神经网络可以自己学习,但是假设足够好,它也可以通过将网络分成两个分支进行硬编码,每个分支在输出之前可能有几个隐藏层)。
其它你可能感兴趣的问题