我正在研究一个涉及具有非常大状态的 RL 代理的问题。这些状态由有关代理的几条信息组成。状态不是图像,因此卷积神经网络等技术在这里不起作用。
是否有一些通用解决方案可以减少/压缩强化学习算法的状态大小?
我正在研究一个涉及具有非常大状态的 RL 代理的问题。这些状态由有关代理的几条信息组成。状态不是图像,因此卷积神经网络等技术在这里不起作用。
是否有一些通用解决方案可以减少/压缩强化学习算法的状态大小?
压缩会有有损,一些细节状态的特征会被关闭计算。
一种常见的技术可能是使用最大池函数或层(如果此处的 RL 是深度 RL,则在馈送到策略网络之前)。
Max-pooling 非常有损,使用其他一些经典的压缩算法,例如 Zip、Rar,但使用这些经典的无损压缩在模型管道中很奇怪并且速度极慢。
如果允许有损数据,可能的解决方案通常是:使用 max-pool(给出高对比度数据)、average-pool(给出模糊数据)。
为了保持数据完整,TensorFlow 可以压缩张量:“只牺牲一小部分模型性能。它可以将任何浮点张量压缩为更小的位序列。”
见:https ://github.com/tensorflow/compression