模式识别项目开发人员的问题。如何最好地组织这种服务的架构?
你在什么阶段进行逻辑?(例如,识别男性蓝色夹克的照片,执行级联查询:“识别男性”->“识别夹克”->“识别夹克颜色。”)
在单个神经网络中实现所有搜索选项是否有意义,或者创建一组仅限于相当简单任务的单个神经网络是否更好?
模式识别项目开发人员的问题。如何最好地组织这种服务的架构?
你在什么阶段进行逻辑?(例如,识别男性蓝色夹克的照片,执行级联查询:“识别男性”->“识别夹克”->“识别夹克颜色。”)
在单个神经网络中实现所有搜索选项是否有意义,或者创建一组仅限于相当简单任务的单个神经网络是否更好?
这是研究的好例子之一。就个人而言,我更喜欢一次分割出所有需要的输出。然后,检查成功率。如果您无法达到您想要的成功率,您可以针对您面临的特定问题寻求更具体的解决方案。
然而,一般来说,定位、分割、识别是在同一个网络中实现的,并且是一次性获得的。
我会使用一个网络:
问题的本质是一次完成所有分类工作是否比为每个阶段运行单独的分类器更有效。
最近的“You Only Look Once”算法(“YOLO”)基于这样一个事实,即如果将卷积网络合并为一个,则可以重用大量临时计算。因此,他们能够对数千个类别的图像执行实时对象检测。
你可以用 YOLO(男人、夹克和夹克颜色类)来表达你的层次分类器。根据您的需要,您可能希望将夹克颜色建模为颜色的近似 R、G、B 值的标量输出,而不是为颜色指定命名类。
由于类在网络的早期层中共享通用抽象,因此这种一次性实现为您提供了推理步骤的运行时效率和更快的训练。
详细信息、YOLO 第 2 版论文和詹姆斯·邦德的精彩演示视频可在此处获得:https ://pjreddie.com/darknet/yolo/
论文“YOLO9000”可在 Arxiv 上找到:https ://arxiv.org/abs/1612.08242