已经展示了从单个或多个相机拍摄中识别具有特定识别特征的对象的能力,其中时间维度被数字化为帧。证据是,当需要特技时,电影业确实面临更换,以降低明星的责任成本。现在,它在相当大比例的动作电影发行中完成。
这就提出了一个问题,即识别停车标志的价值与识别动作的价值相比有多大。例如,在自动驾驶汽车的世界里,是否应该有停车标志。停车标志是为缺乏智慧或注意力不集中而设计的,这就是为什么任何警察都会告诉你,几乎没有人会根据法律完全停下来。人类大脑直观地寻找的是碰撞的可能性。
一旦我们在语言上理解为动词的东西可以在深度学习场景中像处理名词一样熟练地处理,风险的预测就成为可能。
这可能是专利技术背后的哲学,它允许导演说“用电影主角的脸代替特技演员的脸”,并让一群专家使用软件工具和 LINUX 集群来执行它。明星的脸被投影到特技演员的数字记录中实现的动作模型中。
计划行动正是我们避免碰撞时大脑所做的事情,而不仅仅是驾驶。当我们设计机械机制以及人类努力的数百个其他领域时,我们在社会、经济上这样做。
如果我们将 GAN 的拓扑结构视为平衡中的循环,这就是它的本质,那么我们可以看到 GAN 与悬浮液和溶液之间的化学平衡的相似性。这为我们提供了可以预测行动并因此检测视听数据流风险的拓扑类型的提示。
一旦掌握了动作识别,使用训练好的模型投影下一组帧然后检测碰撞或其他风险是一个较小的步骤。这很可能使许多人工智能产品和服务的自动化更加可靠和安全,突破 ML 的门槛,并在不断增加的世界人口密度中增加安全边际。
...这使我们回到...
哪些拓扑支持动作序列的识别?
拓扑可能具有卷积,可能与 RNN 技术、编码器、均衡(例如 GAN 中的生成和判别模型)以及其他设计元素和概念相结合。也许需要发明一种新的元素类型或概念。我们是否必须首先识别帧序列中的动作,然后在尚未拍摄的帧中预测各种选项的后果?
构建块将去哪里以及它们将如何连接,最初暂时忽略对计算能力、网络实现和吞吐量的担忧?
可能已经在这个领域完成了工作并在软件中实现了,但我还没有在文献中看到那种成熟程度,所以其中大部分,如果有的话,现在必须是专有的。向 AI 社区提出问题并公平竞争是很有用的。