表格强化学习方法是否已过时(或已过时)?

人工智能 强化学习 深度学习
2021-11-16 19:21:23

在学习 RL 时,我遇到了一些问题,我需要制作的 Q 矩阵非常大。我不确定它是否实用。然后我研究并得出这个结论,使用表格方法并不是唯一的方法,事实上,与深度 RL 方法等其他方法相比,它是一个非常不强大的工具。

我的理解是否正确,即随着问题的日益复杂,表格强化学习方法正在过时?

1个回答

我的理解是否正确,即随着问题的日益复杂,表格强化学习方法正在过时?

个别问题不会变得更复杂,但由于研究和发现更好或更合适的方法,可解决环境的范围会增加。

使用大型神经网络的深度强化学习方法解决简单问题的效率可能要低得多。所以表格方法仍然在那里。

实际上,如果您的状态/动作空间(状态数乘以动作数)小到足以容纳内存中的 Q 表,并且可以在相对较短的时间内多次访问所有相关的状态/动作对,那么表格方法提供了近似方法无法保证的收敛性。因此,如果合适的话,表格方法通常是首选。

许多与人工智能相关的有趣的前沿问题,例如在现实世界中行动的自主机器人,并不适合表格方法。从这个意义上说,这种方法是“过时的”,因为它不再为实际 AI 提供具有挑战性的研究课题(仍然存在未解决的理论问题,例如蒙特卡洛控制的收敛性证明)。

仍然值得详细了解基于表格值的方法,因为它们构成了更复杂的深度学习方法的基础。从某种意义上说,它们代表了深度 RL 试图逼近的理想解决方案,表格解决方案的设计可以成为对神经网络方法进行更改和调整的灵感。