人工智能 - 自动驾驶汽车是使用单帧还是多帧来做决定？ - 吾爱随笔录

自动驾驶汽车是使用单帧还是多帧来做决定？

人工智能自动驾驶汽车

2021-10-26 08:07:28

这可能是一个微不足道的问题，但我在互联网上找不到任何可靠的答案。

我在互联网上看到的几乎所有自动驾驶汽车的神经网络架构都有一个前馈网络，之前的帧无助于做出当前的决定。

我在某处读到特斯拉使用捕获的最后两帧来做出决定，即使这样 2 帧在这种情况下也不会那么有用。这在预测事物时可能不是很有帮助，即车道切入，因为系统需要观察车辆（即将切入）的行为，例如转向指示器，车辆随着时间的推移转向中心车道以预测.

有人能解释一下这是否是特斯拉等生产型自动驾驶卡的工作方式吗？

还是像下面这样？

或者他们是否使用多对一循环网络，其中输入是前几帧的 CNN 向量，输出是控制？

2个回答

它在不同的自动驾驶范式之间差异很大（很明显），但在大多数情况下，绝大多数实现都使用各种不同的参考框架来进行预测。

例如，特斯拉的自动驾驶仪正在接收许多不同的摄像头信号以及在各种时间环境中处理的雷达和超声波信号。

虽然在大多数情况下，所有这些程序都守口如瓶，但我们可以根据可用信息和有根据的假设做出各种假设。

与许多大型、复杂的 ML/AI 系统一样，存在大量的划分，其中组合了许多不同的连接主义（或有时是经典）模型（如youtube 推荐系统）。特斯拉可能正在利用循环和卷积网络，其中特定模块（模型组合）决定特定上下文（基于时间或基于信号）。然后，这些输出很可能会被馈送到做出实时决策的参与者网络中。

可视化赞赏

这些图表经过深思熟虑。当您改进比较设计可视化时，您可能会使用 Inkscape 之类的工具来绘制它们以供网络发布，无论您决定将论文提交给出版商还是许可您的想法 Creative Commons。

网络研究现实

来自互联网的答案的可靠性取决于作者、她或他自己研究问题的时间、使用的搜索词以及输入搜索词的位置。这个问题属于对研究更具挑战性的情况，其中必须可靠的答案是在专有的政府和企业研究中心进行的实验结果集中。

如果通用汽车、特斯拉、丰田或国防部的研究结果被发布到网上，有人可能会被解雇、起诉，甚至可能被判入狱，而一个律师团队将使用国际协议和骨干级内容过滤器查找所有对发布信息的引用杜绝泄露秘密。

更好的研究方法

我们可以以相当高的信心确定基于单帧的决策不太可能导致避免碰撞，从一个简单的思想实验开始。

两个孩子正在创造性地玩耍，并决定制作一个涉及球的游戏。游戏规则之一是每个玩家只能向后跑，不能向前或侧身跑。这就是为这些孩子带来同样乐趣的原因。这很愚蠢，因为每个人都想向前跑去接球。其余的游戏规则并不特别相关。

机器驱动程序正在处理图像并做出决定。在这种情况下，术语决策表示使用基于规则的系统，无论是模糊和概率还是以前的纯布尔类型，但这也不是特别相关。这个思想实验也适用于主要由人工网络构建的架构的训练所产生的学习反应。

现在考虑这样一种情况，由于孩子们背对着球，因此没有根据球的行进方向或其与被驾驶车辆的街道和路径的接近度来调用任何决定或学习的反应。假设训练数据包括这个自发组成的游戏是不合理的。儿童创造力和单帧选择相结合的结果充其量会导致延迟碰撞避免策略。

相反，如果分析中包括两个或三个帧，则球向街道和儿童移动的特征，无论他们相对于球和街道的方向如何，都可能被检测为整个系统的特征车辆正在行驶的地方。

这是一个天文数字的例子之一，其中没有时间维度的训练将导致基于任何合理训练集的像素数据不正确的轨迹投影的可能性比训练和使用包含时间维度的像素数据的可能性高得多.

数学分析

当真实车辆的试验结果从企业知识产权领域和政府国家安全文物领域转移到公共领域时，我们将看到我们的经验证据。在那之前，我们可以依靠理论。可以表示上述思想实验和其他类似的实验。考虑假设

P_{A = E (S)} > P_{A = E (\vec{S})},

$P_{\mathcal{A} = \mathcal{E}(S)} > P_{\mathcal{A} = \mathcal{E}(\vec{S})} \; \text{,}$

在哪里 $P_c$ 是给定条件的概率 $c$ , $\mathcal{A}$ 是现实（后验）和 $\mathcal{E}$ 是应用于瞬时感官信息的期望函数 $s$ 在不等式的左侧与瞬时感官信息的近期历史 $\vec{s}$ 在右手侧。

如果我们将中间动作（获取每一帧后的决策）纳入这个问题的范围，那么我们可能会以涉及马尔可夫关于事件链中因果关系和预测的工作的方式提出假设。

在没有马尔可夫属性的情况下，基于光学采集的避碰决策的准确性更高，因为历史光学采集数据与新的光学采集数据相结合将产生比没有历史数据更好的轨迹导向计算避碰结果。

这些中的任何一个都可能需要大量的工作来证明，但它们都可能在概率方面是可证明的，并且预先在系统上放置了一组相当合理的数学约束。我们之所以知道这一点，是因为绝大多数的思想经验表明，在确定最有可能避免碰撞的动作时，帧向量比单帧具有优势。

设计

通常情况下，CNN 中使用的卷积核可能是识别可碰撞对象检测中的边缘、轮廓、反射率和纹理特征的最佳设计。

轨迹的组装（作为一个有点空灵的内部中间结果）和随后的哔哔声、转向、加速、中断或信号确定可能最好由某种类型的循环网络处理，最公开吹捧的是基于 b-LSTM 或 GRU 的网络。在许多关于实时系统控制的论文中讨论的基于注意力的处理和抢占是设计中最终通用的主要候选者。这是因为焦点的变化在人类驾驶操作中很常见，甚至可以在鸟类和昆虫中检测到。

最简单的情况是蚂蚁检测到其中之一。

一个不可逾越的大物体
捕食者
一点好闻的食物
水

当检测到先发制人的刺激时，行为模式可能会与感觉信息的神经通路一起发生变化。人类也以这种方式驾驶和驾驶飞机和机动车辆。当您接下来驾驶或驾驶时，将您在不知不觉中学到的知识带入意识，这种先发制人的发现以及注意力和任务重点的改变将变得显而易见。

其它你可能感兴趣的问题

上一篇如何在 Python 中为 Flappy Bird 实现神经网络？下一篇进行分类时，输出层的范围应该是多少？