是否有可能丢失一半的样本,但仍将完整的频谱图视为原始信号?

信息处理 奈奎斯特 重采样
2022-02-22 02:26:17

考虑以每秒 16,000 个样本采样的语音音频信号。绘制它的频谱图。

如果我们从输入信号中删除所有其他样本,我们得到所有 n 的 y[n] = x[2n]。

似乎如果我们绘制 y[n] 的频谱图,我们只会在 Y 轴上看到高达 4kHz 的频率(高于 4k 的所有频率都为零)。所以这种重采样方案没有用。

是否可以对 x[n] 进行一些操作,并获得每秒只有 8000 个样本的信号 (y[n]),但可以看到完整的频率范围 0Hz - 8kHz?

当然,这不会像原始频谱图那样准确,但我仍然对原始“4kHz - 8 kHz”频率范围内的信息是否在一些重新采样操作后仍然以某种方式部分保留感兴趣。

如果是,这个新的重采样方案的数学公式是什么?

1个回答

重新表述您的问题:除了时间轴或频率轴的缩放之外,是否有一个过程可以将全带宽信号的样本数量减半而不会显着影响频谱图的外观?

重采样不会这样做。我知道的唯一这样的过程是时间拉伸/音高缩放,然后是抽取。实际上,时间拉伸/音高缩放的一种定义是“修改信号以使频谱图被拉伸”。

从表示处理信号所需的样本数量变化的角度来看,时间拉伸和音调缩放是等效的。时间拉伸到原始长度的一半只需要一半的样本数量,并且音调缩放到频率的一半允许丢弃每个第二个样本而不会导致混叠,假设频谱的空白上部没有被虚构的东西填充通过使用的算法。

时间拉伸/音高缩放没有唯一的定义或唯一的数学公式。做得好的时间拉伸应该符合你的期望,在你的情况下,“加速”生成音频的过程。加速自然过程并不是唯一的定义。例如,是否应该让钢琴家更快地移动他们的手指,至少导致音符攻击的变化,或者我们是否应该对实际发生的过程更加不可知,只是隔离音频中的音符并将它们移动到一个更紧凑的模式?音符衰减时间是否也应该缩短,因为我们想让一切都更短?取决于一个人的期望或需求。

虽然有各种算法以下是短语 "hello" (freesound)前后的频谱图,由Rubber Band v1.8.2rubberband -t0.5 speech16kHz.wav out.wav命令行处理,并在 Adob​​e Audition 3.0 中使用 512 个频段和 Blackman–Harris 窗口进行分析:

在此处输入图像描述 在此处输入图像描述
图 1. 上图:原始语音频谱图,下图:语音频谱图,时间拉伸到原始长度的一半和样本数的一半。频谱图被缩小到全视图以便于比较。

时间拉伸信号的频谱图看起来基本相同,但细节和分辨率有所降低。