具有灵活输入数量的神经网络?

数据挖掘 神经网络 回归 张量流 监督学习 音频识别
2021-09-30 08:41:56

考虑到输入可以是不同长度的向量,是否可以创建一个提供一致输出的神经网络?

我目前的情况是,我采样了很多长度不同的音频文件,并且必须训练一个神经网络,从而在给定特定输入的情况下为我提供所需的输出。我正在尝试创建一个可以生成 MFCC 特征的回归网络,给定音频文件的样本,这些样本具有不同的长度,从而产生不同的编号输入。

1个回答

是的,这可以通过将音频视为循环神经网络 (RNN)的序列来实现。您可以针对序列末尾正确的目标训练 RNN,甚至可以预测与输入的另一个序列偏移量。

但是请注意,有一些关于 RNN 构建和训练的选项需要了解,而在查看更简单的分层前馈网络时,您还没有学习过这些选项。现代 RNN 使用包括记忆门的层设计——两种最流行的架构是 LSTM 和 GRU,它们在每一层中添加了更多可训练的参数,因为除了层之间和层内的权重之外,记忆门还需要学习权重。

RNN 被广泛用于从已经在 MFCC 或类似特征集中处理过的音频序列进行预测,因为它们可以处理序列数据作为输入和/或输出,这是处理可变长度数据(如口语)时的理想特性, 音乐等

其他一些值得注意的事情:

  • RNN 可以很好地适用于可变长度的数据序列,并且在序列演化的维度上存在明确定义的维度。但它们不太适用于没有明确顺序或顺序的可变大小的特征集。

  • RNN 可以在信号处理、NLP 和相关任务中获得最先进的结果,但前提是训练数据量非常大。如果数据较少,其他更简单的模型也可以工作得一样好或更好。

  • 对于从原始音频样本生成 MFCC 的具体问题:虽然应该可以创建一个从原始音频预测 MFCC 特征的 RNN,但这可能需要一些努力和实验才能正确,并且可能需要大量的处理能力来完成一个足够强大的 RNN,可以在正常音频采样率下处理非常长的序列。虽然使用从 FFT 开始的标准方法从原始音频创建 MFCC 会简单得多,并且保证准确。