对于每一帧,什么被发送到接收器进行解码?系数,一些位的音高,另一位的浊音/清音分类?
另一个广泛的问题是开发关于语音编码的 LPC 和 CELP 的直觉。
通过使用 LPC 和相关语音编码器的频谱包络估计,是否会因为原始音频信号的频谱包络中的原始波动需要更多比特来表示而发生比特率降低?那么在逼近幅度谱包络时,可以使用更少的比特来表示语音吗?
或者,质量降低是消除频谱包络波动的结果,而比特率降低是由于仅传输 LPC 系数、基音周期和有声/无声分类而不是传输每个帧的一些数据流,然后是接收器解码系数、浊音/清音和音高信息......?