我一直在审查几个 NVIDIA GPU 的性能,我发现结果通常以可以处理的“每秒图像数”的形式呈现。实验通常在 Alex Net 或 GoogLeNet 等经典网络架构上进行。
我想知道每秒给定数量的图像(例如 15000 张)是否意味着可以通过迭代处理 15000 张图像或完全学习具有该数量图像的网络?我想如果我有 15000 张图像并且想要计算给定 GPU 训练该网络的速度,我将不得不乘以我的特定配置的某些值(例如迭代次数)。如果这不是真的,是否有用于此测试的默认配置?
我一直在审查几个 NVIDIA GPU 的性能,我发现结果通常以可以处理的“每秒图像数”的形式呈现。实验通常在 Alex Net 或 GoogLeNet 等经典网络架构上进行。
我想知道每秒给定数量的图像(例如 15000 张)是否意味着可以通过迭代处理 15000 张图像或完全学习具有该数量图像的网络?我想如果我有 15000 张图像并且想要计算给定 GPU 训练该网络的速度,我将不得不乘以我的特定配置的某些值(例如迭代次数)。如果这不是真的,是否有用于此测试的默认配置?
我想知道每秒给定数量的图像(例如 15000 个)是否意味着可以通过迭代处理 15000 个图像或完全学习具有该数量图像的网络?
通常,他们会在某处指定他们是否谈论前向(又名推理,又名测试)时间,例如从您在问题中提到的页面:
来自https://github.com/soumith/convnet-benchmarks ( mirror )的另一个例子:
我想知道每秒给定数量的图像(例如 15000 张)是否意味着可以通过迭代处理 15000 张图像或完全学习具有该数量图像的网络?我想如果我有 15000 张图像并且想要计算给定 GPU 训练该网络的速度,我将不得不乘以我的特定配置的某些值(例如迭代次数)。如果这不是真的,是否有用于此测试的默认配置?
你参考的报告《Deep Learning Inference on P40 GPUs》使用了论文中描述的一组图像:《ImageNet Large Scale Visual Recognition Challenge》,数据集在:《ImageNet Large Scale Visual Recognition Challenge (ILSVRC)》。
这是上面引用的论文中的图 7,以及相关文本:
ImageNet Challenge 是深度学习成功的一个很好的例子. 这项挑战是一项涉及多个不同组成部分的竞赛。其中一个组件是图像分类任务,其中算法被赋予图像,它们必须识别图像中的内容,如图 6 所示。训练集由 120 万张图像组成,每张图像都标有 1000 张中的一张图像包含的对象类别。对于评估阶段,算法必须准确识别测试图像集中的对象,这是它以前从未见过的。
图 7 显示了 ImageNet 竞赛中最佳参赛者多年来的表现。可以看到,算法的准确性最初的错误率是 25% 或更高。2012 年,多伦多大学的一个小组使用图形处理单元 (GPU) 的高计算能力和名为 AlexNet 的深度神经网络方法,将错误率降低了约 10%.
他们的成就激发了深度学习风格算法的大量涌现,并带来了源源不断的改进。
结合 ImageNet Challenge 的深度学习方法的趋势,使用 GPU 的参赛者数量也相应增加。从 2012 年只有 4 名参赛者使用 GPU 到 2014 年几乎所有参赛者(110 名)都在使用 GPU。这反映了从传统计算机视觉方法几乎完全转变为基于深度学习的竞争方法。
2015 年,ImageNet 获奖作品 ResNet,超过了人类水平的准确度,前 5 位错误率 4 低于 5%。从那时起,错误率下降到 3% 以下,现在更多的注意力放在了更具挑战性的比赛部分,例如目标检测和定位。这些成功显然是 DNN 被广泛应用的一个促成因素。
A. Krizhevsky、I. Sutskever 和 GE Hinton,“使用深度卷积神经网络的 ImageNet 分类”,NIPS,2012 年。
O. Russakovsky、J. Deng、H. Su、J. Krause、S. Satheesh、S. Ma、Z. Huang、A. Karpathy、A. Khosla、M. Bernstein、AC Berg 和 L. Fei-Fei, “ImageNet 大规模视觉识别挑战赛”,国际计算机视觉杂志 (IJCV),第一卷。115,没有。3,第 211-252 页,2015 年。
K. He、X. Zhang、S. Ren 和 J. Sun,“用于图像识别的深度残差学习”,CVPR,2016。
每年都有不同的挑战,例如需要ILSVRC 2017(部分列表):
主要挑战
对象定位
从 ILSVRC 2012 开始,分类和本地化任务的数据将保持不变。验证和测试数据将包括 150,000 张照片,这些照片是从 flickr 和其他搜索引擎收集的,手工标记有 1000 个对象类别的存在或不存在。这 1000 个对象类别包含 ImageNet 的内部节点和叶节点,但彼此不重叠。带有标签的 50,000 张图像的随机子集将作为包含在开发工具包中的验证数据与 1000 个类别的列表一起发布。其余图像将用于评估,并将在测试时不带标签地发布。训练数据是 ImageNet 的子集,包含 1000 个类别和 120 万张图像,将被打包以便下载。
...
目标定位挑战的获胜者将是在所有测试图像中实现最小平均误差的团队。对象检测
对象检测任务的训练和验证数据将与 ILSVRC 2014 保持不变。测试数据将根据去年的比赛(ILSVRC 2016)部分更新为新图像。该任务有 200 个基本级别的类别,这些类别在测试数据上进行了充分注释,即图像中所有类别的边界框都已标记。这些类别是仔细选择的,考虑到不同的因素,例如对象规模、图像杂乱程度、对象实例的平均数量等。一些测试图像将不包含 200 个类别中的任何一个。
...
检测挑战的获胜者将是在大多数物体类别上获得第一准确率的团队。从视频中检测
物体这在风格上类似于物体检测任务。我们将为今年的比赛部分更新验证和测试数据。该任务有 30 个基本类别,是对象检测任务的 200 个基本类别的子集。这些类别是根据不同的因素精心选择的,例如运动类型、视频杂乱程度、对象实例的平均数量等。每个剪辑的所有类都已完全标记。
...
视频挑战检测的获胜者将是在大多数对象类别上实现最佳准确度的团队。
有关完整信息,请参阅上面的链接。
简而言之:基准测试结果并不意味着您可以在一秒钟内拍摄 15,000 张自己的图像并对其进行分类以达到 15K/秒的评级。
这意味着有一场比赛,每个参赛者都获得了一个(最近)120 万张图像的训练集和一个由 150,000 张图像组成的问题,获胜者以最快的速度正确识别出问题中的图像。
您应该期望,如果您使用相同的硬件和任意一组具有相似复杂性的图像,您将获得大约与特定算法额定值相同的分类率。从理论上讲,使用相同的硬件和图像重复测试将产生非常接近于比赛中获得的结果。
您问题中提到的“15,000 张图像”的分类速度取决于它们与测试集相比的复杂性。一些比赛获胜者提供了有关他们方法的完整信息,而一些参赛者隐藏了专有信息,您可以选择一种开放的方法并在您的硬件上实现它 - 大概您会想要选择最快的公开可用的方法。