有没有办法在游戏以外的应用程序中教授强化学习?
我可以在 Internet 上找到的唯一示例是游戏代理。我了解 VNC 通过强化网络控制游戏的输入。是否可以使用 CAD 软件进行设置?
有没有办法在游戏以外的应用程序中教授强化学习?
我可以在 Internet 上找到的唯一示例是游戏代理。我了解 VNC 通过强化网络控制游戏的输入。是否可以使用 CAD 软件进行设置?
你会在强化学习文献中看到很多游戏示例,因为游戏环境通常可以高效编码,并在可以包含环境和代理的单台计算机上快速运行。对于经典游戏,例如西洋双陆棋、西洋跳棋、国际象棋、围棋,我们可以与人类专家进行比较。某些游戏或简化的类似游戏的环境通常用于比较不同的方法,就像 MNIST 手写数字用于比较监督学习方法一样。
有没有办法在游戏以外的应用程序中教授强化学习?
是的。非正式地,您可以应用强化学习方法,只要您可以将问题构建为在一个环境中行动的代理,它可以被告知状态和影响目标的奖励值。更正式地说,强化学习理论基于马尔可夫决策过程的解决方案,因此,如果您可以将问题描述与 MDP 相匹配,那么可以应用 RL 中使用的各种技术,例如 Q-learning、SARSA、REINFORCE。这种对理论的拟合不需要完美地使结果系统工作,例如,您通常可以将未知或不完美观察到的状态视为对代理有效的随机状态,并考虑这部分随机环境。
以下是一些在休闲游戏之外可能用于强化学习的示例:
电动机器人的控制逻辑,如学习翻煎饼等示例。在这里,环境测量是由机器人上的物理传感器进行的。奖励是为完成一个目标而给予的,但也可能会根据平滑度、能源的经济使用等进行调整。代理选择低级别的动作,例如电机扭矩或继电器位置。从理论上讲,可以存在嵌套代理,其中较高级别的代理为较低级别的代理选择目标 - 例如,机器人可能会在执行需要移动到不同位置的三个任务之一之间做出较高级别的决定,而在较低级别可能会决定如何控制电机以将机器人移动到其选定的目标。
自动驾驶汽车。尽管很多注意力都集中在传感器解释上——查看道路标记、行人等,但需要一个控制系统来选择加速器、刹车和转向。
自动化金融交易。也许对某些人来说是一场游戏,有明显的现实后果。奖励信号虽然很简单,但可以调整 RL 以偏好长期或短期收益。
是否可以使用 CAD 软件进行设置?
理论上是的,但我不知道在实践中可以做到这一点。此外,您需要记住一个或多个目标,然后将代码写入代理(作为它可以观察到的奖励值),然后再给它一个虚拟鼠标并设置一个任务来绘制一些东西。电脑游戏内置了奖励计划作为评分系统,并提供频繁的反馈,因此代理可以快速了解好与坏的决策。您需要用代表您对基于 CAD 的系统的目标的东西替换此评分组件。
CAD 没有任何合适的内置工具,尽管具有模拟功能的 CAD 工具(例如各种物理引擎或有限元分析)可以让您根据模拟的物理测量对设计进行评分。其他可能性包括应变分析、材料的非浪费使用以及 CAD/CAM 系统可以为部分或完整设计提供的任何指标。棘手的部分是将设计限制在其目标或目的上,或者安排奖励,或者将限制构建到环境中;让 RL 智能体完全不受约束地控制 CAD 过程并在最低压力下奖励可能会导致一些非常无趣的东西,例如小立方体。
强化学习的一个很酷的例子是自主飞行的直升机。最近我有机会学习了 Andrew Ng 和其他人所做的一些事情。这是研究论文论文。还有其他类似的论文。如果你想了解更多,你可以谷歌他们。
您还可以在这个 youtube 视频中看到它的实际效果。
显然,这是另一个完全不同的金融应用。
强化学习(尤其是老虎机)算法已经并且可以用于解决游戏以外的问题,例如
一般来说,任何可以建模为某种奖励概念的最大化的问题,即您需要通过采取一些行动与某些环境(具有某些状态)进行交互的问题,原则上都可以通过强化学习来解决。查看此预印本(2019) 以了解其他应用。
但是,请注意,有几个障碍阻碍了 RL 算法被广泛采用来解决现实世界的问题,从较差的样本复杂性(即它们需要许多样本才能达到良好的性能)或部分无法在线评估其性能而无影响用户。