Siri 和 Google Now 等服务通过在云中的服务器上进行部分计算,在手机上执行语音识别(语音到文本)。
他们将什么上传到云端?他们上传原始音频吗?还是他们做一些特征提取并且只将特征(例如,MFCC 系数或其他东西)上传到云端?上传完整的音频对于获得最佳结果是否重要/有用(例如,语音识别的最佳准确性)?
我很好奇了解上传到 Google/Apple 的技术细节,例如,更好地了解隐私影响。请注意,我不是在询问他们的隐私政策,或者他们对数据的处理方式,或者我是否应该关注隐私或任何此类问题。我的兴趣在于语音识别计算如何在您的手机和它们的服务器之间拆分的技术细节。
我所做的研究以及我的发现:
根据Apple 的公开声明, Siri 似乎通过将完整的音频剪辑(不仅仅是功能)上传到 Apple 的服务器来工作。文章还讨论了一些关于进行本地处理是否可行的猜测。(另见此处。)
早在 2011 年,Applidium就对 Siri 协议进行了逆向工程。他们报告说手机正在将完整的音频剪辑上传到苹果的服务器:手机上完成的唯一计算是使用 Speex 压缩音频。他们用来帮助他们的脚本可以在 Github 上找到。
我无法在 Google Now 上找到任何内容。