在过去的几个月里,我处理了一个回归问题,将一个框架音频文件转换为一组 mfcc 功能,用于语音识别应用程序
我尝试了很多不同的网络结构、Cnn、不同的归一化技术、不同的优化器、添加更多层等等。
但最后我得到了一些不错的结果,但我不明白为什么.. 我所做的是我添加了一个线性层作为输出,并且不知何故将错误最小化,并且有点困惑为什么线性层会有那么多影响?...
我的意思是仍然试图将实际输出拟合到所需的输出?..为什么激活函数在这里很重要?...我的意思是根据误差调整权重,那么为什么神经网络更擅长调整输出为线性而非非线性时的误差(如:tanh、Relu).. ?