不久前我想到了一个问题:我正在用 RNN 对语言模型进行实验(总是使用相同的网络拓扑:50 个隐藏单元和 10M 模拟 N_grams 模型的“直接连接”)和不同部分的语料库(10 ,25,50,75,100%)(900 万字)。
我注意到,虽然当训练数据变得更丰富时,困惑似乎会减少,但有时却不会。
最后一个例子:143 118 109 106 112
我的第一个想法是网络初始化,所以我开始用一个较小的语料库和 20 个隐藏单元进行测试(出于技术原因。即使使用 10% 的语料库,学习也可能需要长达 30 小时,这对我来说是个问题),我尝试了 50 次后发现所有网络的收敛值都在 3% 以内。
但是,我想也许这个初始化的重要性是隐藏单元数量的函数?我的意思是隐藏的单元越多,调整的参数就越多。
此外,也许我的停止标准过于敏感(如果两次迭代之间的困惑演变低于某个数字,它就会停止)。您认为在满足标准后允许它运行两次迭代中的一次以查看它是否只是本地事物会产生影响吗?