人工智能 - 如何实现对姿势和手势的识别？ - 吾爱随笔录

如何实现对姿势和手势的识别？

人工智能图像识别模式识别机器人技术机器人人机交互

2021-11-08 17:20:49

我想研究在本田的 ASIMO 机器人^p.22中实现类似识别的可能性，它可以解释手的定位和运动，包括基于视觉信息的姿势和手势。

这是这种识别系统的应用示例。

^{图片来源：ASIMO以智能技术为特色-技术信息（PDF）}

因此，基本上，识别应该检测指示的位置（姿势识别）或响应波浪（手势识别），就像谷歌汽车所做的那样（通过确定某些模式）。

是否知道 ASIMO 是如何做到的，或者姿势和手势识别最接近的替代方案是什么？

3个回答

只是为了增加一些话语; 这实际上是一项非常复杂的任务，因为手势（也称为运动学）作为一种辅助语言可以完全改变句子甚至单个单词的含义。我最近做了一篇关于相反的论文（从特定的社会背景和语言线索生成正确的手势）。产生特定手势的因素包括两个交流者之间的关系（尤其是浪漫的内涵）、社会场景、物理环境、语言环境（正在进行的对话，如果有的话），还有很多个人因素（我们的手势使用本质上是我们周围的重要人物的混合体，例如朋友和家人，这是在个人的心理状态下分层的）。然后，当您查看手势在不同文化中的使用方式完全不同时（例如，查找在其他文化中发誓的手势！），整个事情又被翻转了。手势制作有许多模型，但没有一个模型能捕捉到主题的复杂性。

现在，这似乎是一大堆与您的问题不完全相关的绒毛，但我的观点是，ASIMO 在这方面实际上并不是很“聪明”。AFAIK（我从一个可视化专家那里听说他就是这样认为他们做到了）他们使用传统的（但经过优化的）图像识别技术在数据集上训练来实现对特定动作的识别。有人会假设数据集由一系列带有该特定手势（由人类解释）标记的手势视频/图像组成，然后可以将其视为机器学习问题。问题在于它没有捕捉到我上面提到的任何问题。现在，如果我们回到我们目前对手势的最佳解释（它本身本质上是辅助语言），ASIMO 不会识别除了立即可识别的类型“标志”之外的任何语言元素。

“标志”是具有直接口头翻译的手势，例如在基于英语的文化中，用拇指和食指形成一个圆圈直接翻译为“OK”。因此，ASIMO 错过了非语言词典的很大一部分（不考虑插图画家、情感展示、调节器和适配器！），甚至它正在访问的部分都是基于特定个人对所述标志的解释（例如有人坐下来说这个特殊的动作就是这个手势，意思是这个)，正如我们之前讨论的那样，这是高度个人化的和上下文相关的。我在批评本田时并不是这个意思。说实话，在我看来，手势识别和生成是 AI 中最有趣的问题之一（即使它不是最有用的），因为它是极其复杂的 NLP、可视化和社会建模问题的复合体！

希望我已经提供了一些关于 ASIMO 在这种情况下如何运作的信息，以及当我们从更广泛的角度来看时，为什么 ASIMO 的当前流程存在缺陷。

有一些关于这个主题的研究。例如，参见 Boris Gromov 等人的论文Robot Identification and Localization with Pointing Gestures (2018) 和Proximity Human-Robot Interaction Using Pointing Gestures and a Wrist-mounted IMU (2019)，其中假设人类拥有附在手臂上的惯性测量单元 (IMU)

这不是一项艰巨的任务，首先您必须定位身体部位，例如手臂、头部……您可以使用不同的方法来完成它，例如使用级联分类器或训练有素的 CNN。
之后你可以使用不同的技术，一种可以是在不同身体部位的关键点上训练的 ANN（这是最简单的方法）或 CNN（很好的方法，但你需要大量的训练）。在确定了头部（和眼睛）和手的位置之后，要指示位置，您可以简单地计算这些部分的方向，然后您可以获得这些方向所指向的大致位置。

其它你可能感兴趣的问题

上一篇当我们创造人造生命和人工智能时，我们会要求它遵守人类的规律吗？下一篇有没有聊天机器人愚弄了评委并获得了勒布纳奖金奖？