RL 中一个著名问题的解决方案

人工智能 强化学习
2021-10-23 08:23:03

我在这里向您请教这个问题的解决方案,即:如何在沉浸式虚拟现实中使用强化学习使人移动到虚拟环境中的特定位置。如您所知,强化学习是机器学习的一个子领域,其中称为代理的活动实体与其环境交互并学习如何采取行动以实现预定目标。强化学习没有先验的行为模型,参与者也不知道他们的任务是移动到并留在特定的地方。参与者被放置在一个虚拟环境中,他们必须避免与虚拟弹丸发生碰撞。

更新 1:下载:强化学习作为一种让人们移动到沉浸式虚拟现实中特定位置的工具

1个回答

为理解选择一个场景

当我进入研究界时,通过模拟现实的运动是一个正在开发的领域。不过,这不是问题。这是一组几乎无限的问题,是机器人工程和游戏感兴趣的研究领域。

当场景定义中遗漏了如此多的细节时,解决方案就不能非常具体。尽管我可以指定一个通用的解决方案,但大多数对本次交流中的答案感兴趣的人对纯数学和系统架构的热情并不高,所以我会做出一些假设。

那些具有良好数学和系统设计背景的人将能够从这个答案中更具体的场景中推断出一般方法。我将内联相关的一般理论以促进这种概括。

不完全地缩小规范

  • 没有指定移动的车辆,所以我假设参与者是骑马的骑士。笛卡尔坐标系中的线性运动(如 CNC 机床头的 CAM 移动命令)不太可能使用加固,并且飞机升力可能会失速,使问题复杂化。马是从剩余的典型车辆(汽车、自行车、步行和马)列表中挑选出来的。
  • 没有指定时间限制,因此假设没有任何限制,除非到达目标的时间不能是无限的,除非根本没有到达目的地的可用路径。
  • 障碍物的性质和它们的运动没有具体说明,所以我假设它们是坚固的,只有其他骑士骑着自己的马移动。
  • 没有具体说明与障碍物接触相关的风险,所以我假设马匹不会撞到彼此或静止的物体,如果以足够的速度接近,它们会越过小的地面物体或跳过稍大的物体。
  • 没有指定即将发生碰撞时会发生什么,所以我假设马会减速。
  • 如果一匹马通过障碍物会发生什么将被假定为骑士住院或死亡,因为他们不能轻易地穿上盔甲,从而无法实现目标。
  • 参与者的能力没有具体说明,所以我假设骑士可以立体视觉,配备指南针,可以转动头部和眼睛,可以以通常的骑马方式控制统治,可以用马匹向前推动声音,“耶!” 和/或用双脚轻戳,听到并检测听觉信标的音量,并感知 3D 加速度以检测马的行为。
  • 其他参与者的规格没有给出,所以我假设骑士和他们的马的体积相等。
  • 没有给出障碍物的统计数据,所以我假设物体的大小、形状、颜色和放置都很混乱,使得它们的总体积空间消耗为 1%,平均物体体积与骑士和她的体积相同或他的相关马。
  • 场景是从一个遥远的光源照亮的,因此存在阴影和阴影,整个场景由高度、经度和纬度维度的常数限制。
  • 未指定坐标系,该系统正在模拟赤道陆地空间,因此纬度和经度坐标基本上不是各向异性的。
  • 起点和终点位置具有特定的纬度和经度,并且彼此之间的距离足够远,因此起点和终点位置之间的视线是极不可能的。
  • 没有指定如何知道结束位置,所以我假设结束位置配备了听觉信标。
  • 我们将假设一个零和游戏,其中目标的实现不是相互排斥的,并且我们将假设语言上的协作是不可能的,尽管协作策略可能会从学习的行为中有机地出现。(这完全是另一个话题。)

上述定义中缺少数学精度,仅粗略定义了几个参数,混乱的尺寸、形状和定位成为一般场景下强化软件工程的现实挑战。

相反,在 VR 运动领域内通过应用强化概念为这一特定案例设计解决方案,无需进行需要大量高级(和高级)研究和实验室经验的数学抽象。

概括

以上充分定义了系统E(环境)与系统V(车辆)的组合,其中系统V(车辆)有N个,每个参与者一个。命令信号 C 的离散变化是多维的,A(获取的样本)也是多维的。

获取渠道

  • 以音乐半音(频率比为 2 1/24 )的频谱分布的采样音频矢量,在恒定周期的帧中采样。
  • yuv420p 形式的采样视觉矩阵,示例
  • 3D 加速力的采样触觉矢量

音频和向量作为基础神经网络的输入保持在恒定水平,直到获取下一个向量。按照惯例,将视频矩阵输入卷积神经网络。(请参阅Google 研究人员 Sergey Levin、Peter Pastor、Alex Krizhevsky 和 ​​Deirdre Quillen 在 2016 年 8 月的工作,了解他们的方法和指导他们的背景研究参考资料。)

控制通道

  • 相对于车辆方向的头部位置
  • 左统治位置
  • 正确的统治地位
  • 激活“耶!” 发声
  • 激活光戳

基础神经网络的输出层必须是一个实数,所有五个都具有适当的范围,因为发声的音量和轻戳的轻快对车辆的电机控制具有信息意义。

实时学习

实时学习需要至少一种健康模型来向基础行为网络提供强化信号。在许多情况下,正如在数字系统出现之前的早期控制论工作中所建议的那样,融合需要不止一个健康变量。

增强的矢量控制在开放软件中尚未得到很好的开发,但是多维梯度(雅可比和黑森矩阵)的概念是人工网络理论中的标准元素,可以从矩阵扩展到立方体。任何中级微积分文本都将提供适用于曲面梯度下降的理论。

当存在多个自由度时,有效地执行反向传播是一个有趣的问题,它肯定已经被研究并已部署到商业和军事应用的生产中。

这不能在这里描述,因为我知道的带有矢量增强信号的反向传播机制目前要么是公司机密,要么是机密。与许多技术一样,随着开源代码随着时间的推移独立出现,它可能会在未来发布以供发布。

这些可能是学习强化信号的第一和第二通道实施和调整的最佳选择。我怀疑(但只能凭直觉提供推理)只有一个渠道会产生非常有效的强化学习。这种情况所需的基础网络将太深而无法在没有两种接近估计(1)信标和(2)最近障碍物的情况下进行训练。

行为建模的健康

对参与者行为健康(搜索信标的熟练程度)进行建模的最简单和第一个切入点是信标体积的变化率。这是对信标接近度的扭曲估计,但系统性地如此。音量与位置(而非时间)的差异之间相关性的失真与障碍物对声音的影响有关。

位置建模的健康

进一步的发展可以过滤掉因靠近物体而产生的瞬态衰减,这将需要两个额外的神经网络,(a)从音频和视觉输入的模式中检测最接近的物体,以及(b)使用加速度来近似变化在纬度-经度平面中的位置,并将音频音量变化的过滤与移动相关联,以更好地过滤掉与信标接近度无关的瞬态变化。

可以添加信标的音调作为第三音以提高学习率。

可以在多个游戏中添加崩溃级别加速作为第四个。

附加决定

确定基础神经网络的初始状态和元参数以及模型之间的连接性和基础网络的强化信号超出了此答案的范围,需要对此(或任何)进行实验和可能数月的深入分析半特殊情况。

唯一已知的在不定义环境 E、参与者 P 及其数量 N 的情况下处理一般情况的系统是基于 DNA 的系统,它们已经在数十亿年中发展了这种一般的自适应能力。