基于云的语音转文本服务将哪些内容上传到云端?

信息处理 语音识别 语音处理 嗓音 软件实现
2022-02-12 14:16:15

Siri 和 Google Now 等服务通过在云中的服务器上进行部分计算,在手机上执行语音识别(语音到文本)。

他们将什么上传到云端?他们上传原始音频吗?还是他们做一些特征提取并且只将特征(例如,MFCC 系数或其他东西)上传到云端?上传完整的音频对于获得最佳结果是否重要/有用(例如,语音识别的最佳准确性)?

我很好奇了解上传到 Google/Apple 的技术细节,例如,更好地了解隐私影响。请注意,我不是在询问他们的隐私政策,或者他们对数据的处理方式,或者我是否应该关注隐私或任何此类问题。我的兴趣在于语音识别计算如何在您的手机和它们的服务器之间拆分的技术细节。


我所做的研究以及我的发现:

  • 根据Apple 的公开声明, Siri 似乎通过将完整的音频剪辑(不仅仅是功能)上传到 Apple 的服务器来工作。文章还讨论了一些关于进行本地处理是否可行的猜测。(另见此处。)

  • 早在 2011 年,Applidium就对 Siri 协议进行了逆向工程他们报告说手机正在将完整的音频剪辑上传到苹果的服务器:手机上完成的唯一计算是使用 Speex 压缩音频。他们用来帮助​​他们的脚本可以在 Github 上找到

  • 我无法在 Google Now 上找到任何内容。

2个回答

可以安全地假设所有主要公司都发送了足够的信息来重建音频。这是因为拥有用于培训的音频是非常宝贵的资源。一定比例的音频片段将被人工注释者收听和转录。

这些系统中的特征也比 MFCC 更复杂。您显然希望将计算卸载到云端,因此这是期望他们发送整个音频的另一个原因。

为了给 Aaron 的答案提供更多变体,语音识别管道有多个阶段,您可以在其中切断客户端和服务器之间的界限。有以下变体:

大多数服务都会上传音频,但实际上并没有必要这样做。只是他们需要为系统的未来更新收集一些数据。一旦准确性稳定下来,就会出现带宽减少的服务。