我正在使用 mel-spectrograms 作为 ResNet 的输入从音频信号中执行语言分类。只要我所有来自不同语言的音频数据都来自同一个数据集(因此格式相同),它就可以很好地工作。当我使用数据集 1 中的语言 A 进行训练并使用数据集 2 中的语言 A 进行验证时,该语言的准确度显着下降,相反,网络猜测语言 A 的许多信号与数据集 2 是不同的语言。
这让我相信网络首先会选择确定音频来自哪个数据集的特征,然后将语言分类为次要特征。
我尝试重新格式化每个数据集中的数据,以便它包含相同数量的信息。数据集 1 (voxforge) 由 wavfiles 组成,数据集 2 (mozilla common voice) 由 mp3 数据组成,因此我将数据集 1 转换为与数据集 2 具有相同采样率和每个样本位数的 mp3 数据。
我在想数据集中肯定还有其他一些编码工件使我的网络中断。是否有其他人对跨数据集的“标准化”数据或任何关于转换编码以使编码的信息具有同等质量的问题有任何疑问?