作为循环神经网络的热身,我试图从另一个频率的另一个正弦波预测一个正弦波。
我的模型是一个简单的RNN,它的前向传递可以表示为:
在哪里是 sigmoïd 函数。
当输入输入和预期输出都是相同频率但具有(可能)相移的两个正弦波时,模型能够正确收敛到合理的近似值。
但是,在以下情况下,模型收敛到局部最小值并始终预测为零:
- 输入:
- 预期输出:
以下是网络在 10 轮训练后给定完整输入序列时的预测结果,使用大小为 16 的小批量,学习率为 0.01,序列长度为 16,隐藏层大小为 32:
这让我认为网络无法通过时间学习,只能依靠当前的输入来进行预测。
我尝试调整学习率、序列长度和隐藏层大小,但没有取得多大成功。
我对 LSTM 有完全相同的问题。我不想相信这些架构有那么大的缺陷,有什么暗示我做错了什么吗?

