强化学习是否只适用于网格世界?

数据挖掘 机器学习 强化学习
2022-02-18 12:42:37

强化学习是否总是需要应用网格世界问题?

谁能给我任何其他示例,说明如何将强化学习应用于没有网格世界场景的事物?

2个回答

最简洁的答案是不!强化学习不限于离散空间。但大多数介绍性文献确实涉及离散空间。

正如您现在可能知道的,任何强化学习问题都包含三个重要组成部分:奖励、状态和行动。第一个是标量,理论上后两个可以是离散的或连续的。对于离散情况,各种算法的收敛性证明和分析更容易理解,相应的算法也更容易编码。这就是原因之一,大多数介绍性材料都侧重于它们。

话虽如此,值得注意的是,强化学习的早期研究实际上集中在连续状态表示上。直到 90 年代,文献才开始代表离散空间的所有标准算法,因为我们有很多证明。

最后,如果你仔细观察,我只说连续状态。映射连续状态和连续动作很困难。尽管如此,我们现在确实有一些解决方案。但它是 RL 研究的一个活跃领域。

Sutton 98 年的这篇论文应该是您探索的良好开端!

强化学习不依赖于网格世界。它可以应用于任何可能的空间,其中存在将空间中的点之间映射到适应度度量的“适应度函数”。

拓扑空间具有正式定义的“邻域”,但不一定符合网格或任何维度表示。在拓扑空间中,从“这里”到“那里”的唯一途径是通过一些“路径”,这些“路径”是一组相邻的邻域。连续适应度函数可以在拓扑空间上定义。

就其价值而言,强化学习并不是健身领域中万能的(家族)学习算法。在足够崎岖的健身环境中,其他学习算法可以表现得更好。此外,如果空间的某些区域在给定时间点没有明确定义的适应度函数,则可能不确定哪种学习算法是最优的(如果有的话)。