在《强化学习:简介》(2018 年)一书中,Sutton 和 Barto在第 221 页解释了一种使用散列的平铺编码形式,以减少内存消耗。
我对此有两个问题:
这种方法如何减少内存消耗?它不只取决于瓷砖的数量(您必须为每个瓷砖存储一个重量)?
他们说只有“性能损失很小”。在我的理解中,瓦片编码(和粗编码)的含义是,附近的状态有许多共同的瓦片,而远处的状态只有很少的瓦片相同。由于平铺“随机分布在整个状态空间”,情况并非如此。这如何不影响性能?
在《强化学习:简介》(2018 年)一书中,Sutton 和 Barto在第 221 页解释了一种使用散列的平铺编码形式,以减少内存消耗。
我对此有两个问题:
这种方法如何减少内存消耗?它不只取决于瓷砖的数量(您必须为每个瓷砖存储一个重量)?
他们说只有“性能损失很小”。在我的理解中,瓦片编码(和粗编码)的含义是,附近的状态有许多共同的瓦片,而远处的状态只有很少的瓦片相同。由于平铺“随机分布在整个状态空间”,情况并非如此。这如何不影响性能?