我看过一篇描述“强化学习树”的研究论文,作者说它比随机森林具有更好的收敛性。
但是,我在强化学习中找不到任何与将随机森林用于表格相关的内容。是否曾经在强化学习中使用随机森林进行过测试?
我看过一篇描述“强化学习树”的研究论文,作者说它比随机森林具有更好的收敛性。
但是,我在强化学习中找不到任何与将随机森林用于表格相关的内容。是否曾经在强化学习中使用随机森林进行过测试?
我希望某处有人在 RL 中使用 RF 估计器来近似动作值,如果只是将其评估为与其他函数逼近器的比较。但是,从网络搜索来看,它确实没有被广泛使用,我也找不到一个例子。
使用 RF 作为价值估计器的 RL/RF 混合算法的主要问题是,随机森林基础算法不是在线算法——它适用于最终数据集并处理整个批次以执行诸如 bagging 之类的操作。即使用作使用经验回放的估计器,对在线学习的支持也是一个理想的特性,并且值通常以小批量或中批量的形式输入到监督学习部分。这是因为强化学习中内部估计函数学习到的动作值是非平稳的。
一旦你了解了当前策略的动作值,并且在大多数 RL 中,在这些值的估计值收敛之前,你就可以更改策略。这会改变预期的操作值,因此您的估算器必须能够忘记较旧的数据并偏向于最近的值。可以在线工作的算法可以做到这一点,而纯粹的离线算法则不能。
但是,有一些在线随机森林对使用非静态数据进行了必要的更改。我看不出他们不能工作的任何原因。一般而言,决策树已成功用作 RL 中的估计器 - 请参阅使用决策树进行强化学习。看起来原则上是可以做到的。