在 Robert Gallager 的6.450 数字通信原理 I的讲义中,练习 2.1 提出了一个有趣的概念性问题:
语音波形可以通过以每秒 8000 次采样并量化为每个采样 8 位来转换为二进制数据,从而产生 64kb/s。[...] 现代语音编码器可以产生 6-16 kb/s 的电话质量语音。如果您的目标只是在语音中可识别地再现单词,而不考虑说话人识别、语调等,请估计需要多少 kb/s。[...](注意:这里显然没有“正确答案”;这个问题太模糊了。问题的重点是习惯于质疑目标和方法。)
我的第一个直觉是查看当今英语中使用的单词数量(约 170,000 个),计算粗略编码每个单词需要多少位(约 18 个),然后查看我们说话的平均速度每秒字数(~2),并提出每秒 36 位作为我的粗略答案。我不确定是否不关心语音波形本身以及所有可能需要的信号处理是否是考虑问题的合理方式。我在这里寻求反馈和其他思考这个问题的方式。
(这不是家庭作业。我自己正在研究笔记,我很好奇。)