我想研究在本田的 ASIMO 机器人p.22中实现类似识别的可能性,它可以解释手的定位和运动,包括基于视觉信息的姿势和手势。
这是这种识别系统的应用示例。
因此,基本上,识别应该检测指示的位置(姿势识别)或响应波浪(手势识别),就像谷歌汽车所做的那样(通过确定某些模式)。
是否知道 ASIMO 是如何做到的,或者姿势和手势识别最接近的替代方案是什么?
我想研究在本田的 ASIMO 机器人p.22中实现类似识别的可能性,它可以解释手的定位和运动,包括基于视觉信息的姿势和手势。
这是这种识别系统的应用示例。
因此,基本上,识别应该检测指示的位置(姿势识别)或响应波浪(手势识别),就像谷歌汽车所做的那样(通过确定某些模式)。
是否知道 ASIMO 是如何做到的,或者姿势和手势识别最接近的替代方案是什么?
只是为了增加一些话语; 这实际上是一项非常复杂的任务,因为手势(也称为运动学)作为一种辅助语言可以完全改变句子甚至单个单词的含义。我最近做了一篇关于相反的论文(从特定的社会背景和语言线索生成正确的手势)。产生特定手势的因素包括两个交流者之间的关系(尤其是浪漫的内涵)、社会场景、物理环境、语言环境(正在进行的对话,如果有的话),还有很多个人因素(我们的手势使用本质上是我们周围的重要人物的混合体,例如朋友和家人,这是在个人的心理状态下分层的)。然后,当您查看手势在不同文化中的使用方式完全不同时(例如,查找在其他文化中发誓的手势!),整个事情又被翻转了。手势制作有许多模型,但没有一个模型能捕捉到主题的复杂性。
现在,这似乎是一大堆与您的问题不完全相关的绒毛,但我的观点是,ASIMO 在这方面实际上并不是很“聪明”。AFAIK(我从一个可视化专家那里听说他就是这样认为他们做到了)他们使用传统的(但经过优化的)图像识别技术在数据集上训练来实现对特定动作的识别。有人会假设数据集由一系列带有该特定手势(由人类解释)标记的手势视频/图像组成,然后可以将其视为机器学习问题。问题在于它没有捕捉到我上面提到的任何问题。现在,如果我们回到我们目前对手势的最佳解释(它本身本质上是辅助语言),ASIMO 不会识别除了立即可识别的类型“标志”之外的任何语言元素。
“标志”是具有直接口头翻译的手势,例如在基于英语的文化中,用拇指和食指形成一个圆圈直接翻译为“OK”。因此,ASIMO 错过了非语言词典的很大一部分(不考虑插图画家、情感展示、调节器和适配器!),甚至它正在访问的部分都是基于特定个人对所述标志的解释(例如有人坐下来说这个特殊的动作就是这个手势,意思是这个),正如我们之前讨论的那样,这是高度个人化的和上下文相关的。我在批评本田时并不是这个意思。说实话,在我看来,手势识别和生成是 AI 中最有趣的问题之一(即使它不是最有用的),因为它是极其复杂的 NLP、可视化和社会建模问题的复合体!
希望我已经提供了一些关于 ASIMO 在这种情况下如何运作的信息,以及当我们从更广泛的角度来看时,为什么 ASIMO 的当前流程存在缺陷。
有一些关于这个主题的研究。例如,参见 Boris Gromov 等人的论文Robot Identification and Localization with Pointing Gestures (2018) 和Proximity Human-Robot Interaction Using Pointing Gestures and a Wrist-mounted IMU (2019),其中假设人类拥有附在手臂上的惯性测量单元 (IMU)
这不是一项艰巨的任务,首先您必须定位身体部位,例如手臂、头部……您可以使用不同的方法来完成它,例如使用级联分类器或训练有素的 CNN。
之后你可以使用不同的技术,一种可以是在不同身体部位的关键点上训练的 ANN(这是最简单的方法)或 CNN(很好的方法,但你需要大量的训练)。在确定了头部(和眼睛)和手的位置之后,要指示位置,您可以简单地计算这些部分的方向,然后您可以获得这些方向所指向的大致位置。