机器算法验证 - RNN学习不同频率的正弦波 - 吾爱随笔录

作为循环神经网络的热身，我试图从另一个频率的另一个正弦波预测一个正弦波。

我的模型是一个简单的RNN，它的前向传递可以表示为：

\begin{aligned} r_{t} & = σ (W_{i n} \cdot x_{t} + W_{r e c} \cdot r_{t - 1})) \\ z_{t} & = W_{o u t} \cdot r_{t} \end{aligned}

$\begin{aligned} r_t &= \sigma(W_{in} \cdot x_t + W_{rec} \cdot r_{t-1}))\\ z_t &= W_{out} \cdot r_t \end{aligned}$ 在哪里

σ

$\sigma$ 是 sigmoïd 函数。

当输入输入和预期输出都是相同频率但具有（可能）相移的两个正弦波时，模型能够正确收敛到合理的近似值。

但是，在以下情况下，模型收敛到局部最小值并始终预测为零：

以下是网络在 10 轮训练后给定完整输入序列时的预测结果，使用大小为 16 的小批量，学习率为 0.01，序列长度为 16，隐藏层大小为 32：

这让我认为网络无法通过时间学习，只能依靠当前的输入来进行预测。

我尝试调整学习率、序列长度和隐藏层大小，但没有取得多大成功。

我对 LSTM 有完全相同的问题。我不想相信这些架构有那么大的缺陷，有什么暗示我做错了什么吗？

我正在为 Torch 使用rnn包，代码在 Gist中。