有没有提到神经网络优化中的数值问题的出版物?
(博客文章、文章、研讨会笔记、讲义、书籍 - 什么?)
问题的背景
我最近有一个奇怪的现象:当我在我的机器上使用给定脚本在 GTSRB 数据集上训练一个卷积网络时,它得到了最先进的结果(99.9% 的测试准确率)。10次。没有异常值。当我在另一台机器上使用相同的脚本时,我得到的结果要差得多(~ 80% 左右的测试准确率,10 次,没有异常值)。我想我可能没有使用相同的脚本,因为它对我的出版物并不重要,所以我只是删除了该数据集的所有结果。我想我可能在其中一台机器上犯了一个错误(例如,使用不同的预处理数据),我无法找出错误发生在哪里。
现在一位朋友给我写信说他有一个网络、一个训练脚本和一个数据集,该数据集在机器 A 上收敛,但在机器 B 上不收敛。完全相同的设置(一个完全连接的网络,训练为自动编码器)。
我只有一个猜测可能会发生什么:机器有不同的硬件。Tensorflow 可能使用不同的算法进行矩阵乘法/梯度计算。它们的数字属性可能不同。这些差异可能会导致一台机器能够优化网络,而另一台则不能。
当然,这需要进一步调查。但不管这两种情况发生了什么,我认为这个问题很有趣。直观地说,我会说数字问题不应该很重要,因为无论如何都不需要尖锐的最小值,并且一次乘法的差异不如下一步的更新重要。