这是我和同事争论了一段时间的话题,也许你也可以发表你的看法。
人工神经网络使用一定值范围内的随机权重初始化。这些随机参数源自伪随机数生成器(高斯等),到目前为止它们已经足够了。
使用适当的样本,简单的伪随机数可以在统计上测试它们实际上不是真正的随机数。对于像 GPT-3 这样具有大约 1750 亿个可训练参数的巨大神经网络,我想如果你对 GPT-3 的初始权重使用相同的统计测试,你也会得到一个明确的结果,即这些参数是伪随机的。
对于这种大小的模型,理论上至少可以由伪随机性引起的初始权重的可重复结构影响模型拟合过程,从而影响已完成的模型(泛化或性能方面)?换句话说,随机性的质量会影响大型神经网络的拟合吗?