是否有关于影响实验的硬件错误的报告?

数据挖掘 实验 硬件
2022-02-25 04:11:59

我最近写了这个列表,列出了我所看到的/可以认为的问题来源,这些问题使得难以重现(复制?)实验。我想我已经看到了大多数,除了硬件错误。

我的想法是:一个典型的计算机视觉实验可能会在 GPU 上运行数小时/数天的训练。即使每次只发生一次位翻转109FLOPs,使用Nvidia Titan GTX 1080 Ti每秒会出现 11500 个错误我不知道这个错误会如何影响以后的计算(问题是如何以数字为条件的)。

那么:是否有关于影响实验的硬件错误的报告?

(博客文章、期刊文章、海报?)

1个回答

内存损坏似乎是一个非常重要的问题,对于公司为其集群购买昂贵的 ECC 内存来说非常重要。关于 ECC 内存的Wikipedia 文章列出了导致内存损坏的一些原因,包括(令我惊讶和高兴的)宇宙射线和巧妙的黑客。