我正在研究强化学习的最新技术,我的观点是,我们在现实世界中看到了很多在生产中使用监督和非监督学习算法的应用,但我对强化学习算法的看法不同。
在生产中获得 RL 的最大障碍是什么?
我正在研究强化学习的最新技术,我的观点是,我们在现实世界中看到了很多在生产中使用监督和非监督学习算法的应用,但我对强化学习算法的看法不同。
在生产中获得 RL 的最大障碍是什么?
有一篇相对较新的论文解决了这个问题: Gabriel Dulac-Arnold 等人的真实世界强化学习挑战(2019),它提出了将 RL 生产到现实世界问题中需要解决的所有挑战,目前解决挑战的方法/解决方案,以及评估它们的指标。我只会列出它们(基于我几周前做的笔记)。您应该阅读论文以了解更多详细信息。无论如何,对于熟悉 RL 的人来说,它们将是相当明显的。
还有一篇最新的相关论文,Gabriel Dulac-Arnold 等人对现实世界强化学习挑战的实证调查(2020),这里有与实验相关的代码。
技术壁垒:至少应该有这些常识性的大壁垒:
技术壁垒首先是将它们应用于商业的障碍。人们可能会相当快地手动生成一些监督数据,因此通常首先选择监督学习,没有人愿意尝试 RL。
更难找到人力资源:有监督学习经验的 AI 工程师更受欢迎,也更容易找到;使用 RL 的工作更少,因此如果使用 RL,业务项目就不容易执行。
但是,从我的角度来看,RL 在未来非常有前途,因为 AI 实体现在越来越独立。