数据挖掘 - 具有灵活输入数量的神经网络？ - 吾爱随笔录

数据挖掘神经网络回归张量流监督学习音频识别

2021-09-30 08:41:56

考虑到输入可以是不同长度的向量，是否可以创建一个提供一致输出的神经网络？

我目前的情况是，我采样了很多长度不同的音频文件，并且必须训练一个神经网络，从而在给定特定输入的情况下为我提供所需的输出。我正在尝试创建一个可以生成 MFCC 特征的回归网络，给定音频文件的样本，这些样本具有不同的长度，从而产生不同的编号输入。

1个回答

是的，这可以通过将音频视为循环神经网络 (RNN)的序列来实现。您可以针对序列末尾正确的目标训练 RNN，甚至可以预测与输入的另一个序列偏移量。

但是请注意，有一些关于 RNN 构建和训练的选项需要了解，而在查看更简单的分层前馈网络时，您还没有学习过这些选项。现代 RNN 使用包括记忆门的层设计——两种最流行的架构是 LSTM 和 GRU，它们在每一层中添加了更多可训练的参数，因为除了层之间和层内的权重之外，记忆门还需要学习权重。

RNN 被广泛用于从已经在 MFCC 或类似特征集中处理过的音频序列进行预测，因为它们可以处理序列数据作为输入和/或输出，这是处理可变长度数据（如口语）时的理想特性, 音乐等

其他一些值得注意的事情：

RNN 可以很好地适用于可变长度的数据序列，并且在序列演化的维度上存在明确定义的维度。但它们不太适用于没有明确顺序或顺序的可变大小的特征集。
RNN 可以在信号处理、NLP 和相关任务中获得最先进的结果，但前提是训练数据量非常大。如果数据较少，其他更简单的模型也可以工作得一样好或更好。
对于从原始音频样本生成 MFCC 的具体问题：虽然应该可以创建一个从原始音频预测 MFCC 特征的 RNN，但这可能需要一些努力和实验才能正确，并且可能需要大量的处理能力来完成一个足够强大的 RNN，可以在正常音频采样率下处理非常长的序列。虽然使用从 FFT 开始的标准方法从原始音频创建 MFCC 会简单得多，并且保证准确。

其它你可能感兴趣的问题