我目前正在重新创建本文的结果。在论文中,他们描述了一种使用 CNN 进行特征提取的方法,并拥有一个 Dnn-hmm 声学模型,并使用 RBM 进行了预训练。
第 III 小节 A 说明了可以表示输入数据的不同方式。我决定垂直堆叠静态、增量和增量增量的频谱图。
然后,该论文描述了网络应该如何。他们说他们使用卷积网络,但对网络的结构一无所知?此外,网络是否总是被称为卷积层?与普通网络卷积神经网络(cnn)相比,我确信我看到了任何差异。
该论文指出了这一点:
(来自第三节 B 小节)
然而,卷积层在两个重要方面不同于标准的全连接隐藏层。首先,每个卷积单元仅从输入的局部区域接收输入。这意味着每个单元代表输入的局部区域的一些特征。其次,卷积层的单元本身可以组织成多个特征图,其中同一特征图中的所有单元共享相同的权重,但从较低层的不同位置接收输入
我想知道的另一件事是,论文是否真的说明了需要多少输出参数来馈送 dnn-hmm 声学模型。我似乎无法解码过滤器的数量、过滤器的大小......在网络的一般细节中?