我们可以在Wikipedia 页面上看到,谷歌为机器学习构建了一个定制的 ASIC 芯片,并为 TensorFlow 量身定制,这有助于加速人工智能。
由于 ASIC 芯片是专门为一种特定用途定制的,而不能改变其电路,因此必须调用一些固定的算法。
那么,如果算法无法改变,那么使用 ASIC 芯片的 AI 加速究竟是如何工作的呢?它的哪一部分正在加速?
我们可以在Wikipedia 页面上看到,谷歌为机器学习构建了一个定制的 ASIC 芯片,并为 TensorFlow 量身定制,这有助于加速人工智能。
由于 ASIC 芯片是专门为一种特定用途定制的,而不能改变其电路,因此必须调用一些固定的算法。
那么,如果算法无法改变,那么使用 ASIC 芯片的 AI 加速究竟是如何工作的呢?它的哪一部分正在加速?
大多数 ML 应用程序的主要工作只是一组(非常大的)张量运算,例如矩阵乘法。您可以在 ASIC 中轻松做到这一点,所有其他算法都可以在此基础上运行。
我认为算法的变化很小,但必要的硬件已经被修剪到了骨子里。
减少了门转换的数量(可能也减少了浮点操作和精度),数据移动操作的数量也减少了,从而节省了功耗和运行时间。谷歌建议他们的 TPU 可以节省 10 倍的成本来完成相同的工作。
ASIC - 它代表专用集成电路。基本上,您编写程序以用HDL设计芯片。我将以现代计算机如何工作的案例来解释我的观点:
n
核心数?没问题。您想定义从不同处理单元到不同地方的数据流吗?你能行的。此外,通过仔细规划,您可以在 ASIC 面积与功率与速度之间进行权衡。唯一的问题是,对于所有这些,您需要创建自己的标准。通常,在设计处理器时会遵循一些定义明确的标准,如许多引脚及其功能、浮点表示的 IEEE 754 标准等,这些标准是经过大量试验和错误后提出的。因此,如果您能克服所有这些问题,您就可以轻松创建自己的 ASIC。我不知道谷歌在用他们的 TPU 做什么,但显然,他们根据手头的要求为他们的 8 位内核设计了某种整数和 FP 标准。出于功率、面积和速度方面的考虑,他们可能正在 ASIC 上实现它。
低精度可以在 Convo 和 FC 层中实现高并行计算。CPU & GPU 固定架构,但可基于神经网络架构设计 ASIC/FPGA