需要多少 bps 才能以可识别的方式重现语音中的单词?

信息处理 数字通信 演讲
2022-02-09 02:14:00

在 Robert Gallager 的6.450 数字通信原理 I的讲义中,练习 2.1 提出了一个有趣的概念性问题:

语音波形可以通过以每秒 8000 次采样并量化为每个采样 8 位来转换为二进制数据,从而产生 64kb/s。[...] 现代语音编码器可以产生 6-16 kb/s 的电话质量语音。如果您的目标只是在语音中可识别地再现单词,而不考虑说话人识别、语调等,请估计需要多少 kb/s。[...](注意:这里显然没有“正确答案”;这个问题太模糊了。问题的重点是习惯于质疑目标和方法。)

我的第一个直觉是查看当今英语中使用的单词数量(约 170,000 个),计算粗略编码每个单词需要多少位(约 18 个),然后查看我们说话的平均速度每秒字数(~2),并提出每秒 36 位作为我的粗略答案。我不确定是否不关心语音波形本身以及所有可能需要的信号处理是否是考虑问题的合理方式。我在这里寻求反馈和其他思考这个问题的方式。

(这不是家庭作业。我自己正在研究笔记,我很好奇。)

2个回答

这一切都取决于您如何解释要求以及什么是“足够好”。

例如,一种真正的带宽效率高的方法是简单地使用语音到文本系统进行编码、发送文本并使用文本到语音系统重新编码。那将是大约 0.075 kb/s(每分钟 150 个字,每个字 6 个字母,每个字母 5 位)。

那将是一个非常糟糕的语音编码系统,但它是否符合“规则”更像是一个语义而不是技术问题。

在实践中,大多数演讲者似乎都可以预测。

如果您可以进行语音到文本,然后根据他/她的宝贵演讲进行每位演讲者的预测,我认为我所说的任何事情中真正不可预测/新颖的部分都将是微不足道的。一些机器学习应该能够根据我的历史生成类似于我对任何主题的响应,使用一些比特进行种子和残差校正。

然后是将紧凑的比特集映射到一个“音频化身”的微不足道的部分,这听起来像我给了一些文本输入。

如果一切都是事先知道的,并且大型模型可以在通信发生之前由鸽子分发,我怀疑你需要很多位来代替我:-)