我最近写了这个列表,列出了我所看到的/可以认为的问题来源,这些问题使得难以重现(复制?)实验。我想我已经看到了大多数,除了硬件错误。
我的想法是:一个典型的计算机视觉实验可能会在 GPU 上运行数小时/数天的训练。即使每次只发生一次位翻转FLOPs,使用Nvidia Titan GTX 1080 Ti每秒会出现 11500 个错误。我不知道这个错误会如何影响以后的计算(问题是如何以数字为条件的)。
那么:是否有关于影响实验的硬件错误的报告?
(博客文章、期刊文章、海报?)
我最近写了这个列表,列出了我所看到的/可以认为的问题来源,这些问题使得难以重现(复制?)实验。我想我已经看到了大多数,除了硬件错误。
我的想法是:一个典型的计算机视觉实验可能会在 GPU 上运行数小时/数天的训练。即使每次只发生一次位翻转FLOPs,使用Nvidia Titan GTX 1080 Ti每秒会出现 11500 个错误。我不知道这个错误会如何影响以后的计算(问题是如何以数字为条件的)。
那么:是否有关于影响实验的硬件错误的报告?
(博客文章、期刊文章、海报?)
内存损坏似乎是一个非常重要的问题,对于公司为其集群购买昂贵的 ECC 内存来说非常重要。关于 ECC 内存的Wikipedia 文章列出了导致内存损坏的一些原因,包括(令我惊讶和高兴的)宇宙射线和巧妙的黑客。