GPU 如何促进深度学习架构的训练?

人工智能 神经网络 深度学习 卷积神经网络 长短期记忆 显卡
2021-11-16 04:36:26

我很想详细了解 GPU 在技术方面对训练深度学习模型有何帮助。

据我了解,GPU 有助于同时执行独立任务以提高速度。例如,在通过 CNN 计算输出时,所有的加法都是同时进行的,从而提高了速度。

但是,在基本神经网络或与 GPU 相关的 LSTM 类型的复杂模型中究竟发生了什么。

1个回答

GPU 能够并行执行大量相似且简单的指令(浮点运算,如加法和乘法)。与能够非常快速地顺序执行一些复杂任务的 CPU 相比。因此,GPU 非常擅长进行向量和矩阵运算。

如果您查看在单个基本 NN 层内执行的操作,您会发现大多数操作都是矩阵向量乘法:

xi+1=σ(Wixi+bi)

在哪里xi是输入向量,Wi权重矩阵,bi中的偏置向量ith层,xi+1输出向量和σ()逐元素非线性激活。这里的计算复杂度由矩阵向量乘法控制。如果您查看LSTM 单元的架构,您会注意到其中有多个此类操作。

能够快速有效地并行执行矩阵向量运算将减少执行时间,这是 GPU 优于 CPU 的地方。