Siri 如何识别我说“嘿 Siri”?

信息处理 声音 语音识别 语音
2021-12-31 16:17:32

我试图了解我的 iPhone 是如何不断地听我说Hey Siri,AlexaHey CortanaOkay Google快速耗尽我的电池电量的。

我想象了两种算法。一种记录时间片,例如每 200 毫秒记录 10 毫秒宽的片,并在特定频率上执行同步检测。然而,这些参数很大程度上取决于我声音的特性。而且,在茫茫荒野中不断尝试匹配 a 仍然会消耗大量 CPU 功率Hey Siri

什么样的高效低功耗算法/实现(硬件或软件)可以执行这样的任务?

这在某种程度上与我认为的这项专利有关:https: //www.google.com/patents/US20160253997

我读过一些关于隐马尔可夫模型的文章,但我怀疑这是非常低功耗的方法。

3个回答

“Ok Google”在 Google 的许多出版物中都有描述

使用深度神经网络进行稳健的小尺寸关键字发现的自动增益控制和多样式训练

用于小尺寸关键字识别的卷积神经网络

它基于专门针对关键短语训练的 DNN,运行速度非常快。即使在移动设备上,它也不会消耗很多电量。

Alexa 定位是由同一个人实现的,并且与Snowboy一样可用

更新:Apple在这里描述了他们的实现。

为了详细说明@hotpaw2 的答案,“Hey Siri”在低功耗M9 协处理器芯片上运行,该芯片还可以为 Health 应用程序监控脚步等。因此,在没有 M9 芯片的旧设备中,您需要插入 iDevice 才能让“Hey Siri”正常工作。

我认为低功耗硬件实现是关键(而不仅仅是与硬件无关的算法天才)

参考:

只是一些疯狂的猜测:

专用硬件(具有自己的隔离电源域的附加“M”芯片或 SOC 逻辑块)以音频处理时钟速率或占空比运行,在微小的数据缓冲区上运行,比具有大量内存层次结构的 GHz 能力 CPU 消耗的功率要少得多。主 CPU 只有在初始可能 ID 足够高时才需要唤醒,因此初始检测算法不需要很好,只要足够好即可。另外,考虑一下与具有相同电池寿命的智能手机相比,入耳式蓝牙耳机的电池有多小。简单的音频处理不会很快耗尽相对庞大的手机电池。