实用/商业人工神经网络的典型尺寸是多少?

人工智能 神经网络 机器学习 参考请求 自动驾驶汽车
2021-11-07 10:47:39

我对人工神经网络 (ANN) 很感兴趣,我想知道实际使用中的 ANN 有多大,例如 Tesla Autopilot、Google Translate 等。

关于特斯拉,我发现的唯一一件事

“完整的 Autopilot 神经网络包含 48 个网络,需要 70,000 个 GPU 小时来训练。它们在每个时间步长上共同输出 1,000 个不同的张量(预测)。”

似乎大多数公司都没有发布有关其 ANN 规模的明确信息。我真的找不到关于这个主题的任何详细信息。

是否有任何关于大型实用/商业人工神经网络大小的信息,包括神经元/连接/层等的数量?

我正在寻找这个规模的一些例子,其中包含有关神经网络大小的更精确信息。

4个回答

自然语言处理领域

您可以在 Google 等公司发布的 NLP 应用程序中轻松找到此类开源神经网络。例如,在BERT 模型中,您可以看到 BERT-Base 具有以下规格:

BERT-Base, Multilingual Cased:104 种语言,12 层,768 隐藏,12 头,110M 参数

您可以在同一链接中找到有关其他版本 BERT 的更多数据。

另一个例子是 GPT 模型,例如GPT-3

所有 GPT-3 模型都使用与 GPT-2 前身相同的基于注意力的架构。最小的 GPT-3 模型 (125M) 有 12 个注意力层,每个层都有 12x 64 维头。最大的 GPT-3 模型 (175B) 使用 96 个注意力层,每个层都有 96x 128 维的头。

图像处理领域

您期望的另一个有用领域是图像处理任务,例如图像分类。预训练模型,例如VGG、ResNet 和 Inception这些主要用于不同公司的图像分类任务,您可以在很多地方找到它们的规范。例如对于 VGG-16,我们可以看到以下内容:

在此处输入图像描述

语音处理

另一个实用领域是自动语音识别或简称 ASR。在这种情况下,著名的模型之一是 Baido 研究中心的 DeepSpeech(2)。例如,您可以在此 github 链接中找到一些信息,例如其参数的数量及其结构

加起来

请注意,衡量神经网络规模的一个常规指标是在训练阶段需要学习的网络的“参数数量”。因此,您甚至可以通过了解模型的参数数量来比较模型的大小,甚至可以在跨域之间进行比较(而不是详细了解隐藏层的数量及其类型)。虽然,有时网络的长度(层数)和高度(每层中的神经元数)对于网络的性能和能力非常重要。

我希望这有帮助。免责声明:这些信息是从特斯拉的计算机视觉中提取的,尽管可能需要额外的参考......

模型的大小取决于域。我目前正在使用一个用于在嵌入式设备上进行实时推理的模型。计算速度至关重要。

模型大小是 5 层 CNN,大约 700k 个参数,磁盘大小约为 12MB。

使用基准算法或研究论文将是一个好的开始。除此之外,使用开源的 Bert GPT 2 类架构是一个好的开始。