卷积神经网络是用于图像识别的前馈人工神经网络的主要类型。它们可以用于视频的实时图像识别(逐帧),还是需要太多处理(假设它们是用类 C 语言编写的)?
例如,基于庞大数据集的训练对动物类型进行分类。
我们正在到达那里,像往常一样在质量和速度之间进行一些权衡。
例如第 8 讲:空间定位和检测讲座展示了一些基准(mAP = 平均精度,越高越好;FPS = 每秒帧数):