图像分类:最小输入计数的策略

数据挖掘 神经网络 图像分类 多类分类 卷积
2022-03-12 04:16:22

我想将产品图像分类为 8 个离散类。出于多种原因,输入图像的数量需要尽可能少。与此相关,我有两个问题:

  1. 我可以采用哪些策略来减少图像数量或所需图像
  2. 每个类别所需的图像数量是多少(A)在图像总是被隔离的简单场景中,见下文或(B)在图像是风景的复杂场景中(也见下文)。我知道这通常很难说,但一个粗略的数字就可以了。

附加信息

建筑学

目前,CNN 似乎最适合这个问题。我也在考虑一个预训练的网络(去除强大网络的深层,比如 AlexNet)。

数据

想象一下,我正在尝试按餐桌的腿类型对餐桌进行分类。在简单的场景中,来自 3 个不同类的图像可能如下所示:

在此处输入图像描述 等级:普通

在此处输入图像描述 类别:外向

在此处输入图像描述 类别:电线

在复杂的场景中,它们可能如下所示:

在此处输入图像描述

减少所需输入数据的技术

我有几个想法可以减少对数据的需求(请添加您自己的):

  • 使用预训练的网络(好主意与否?)
  • 预处理图像(如何?摆弄图像方向?)
  • 更深入地更改图像是否有意义(例如砍掉前 50%,因为我只关心腿?)

我期待着你的想法!

1个回答

在运行了一些测试并收集了一些训练数据之后,我对需要多少数据有了一个粗略的印象。这个问题仍未完全回答,但我认为这些见解可能对其他人有所帮助:

那么我需要多少张图片呢?

架构: - 使用 Imagenet 数据预训练的 Inception V3 模型 - 删除了最后一层

每个类别的数据/图像:

  • 101 张图片
  • 258 张图片
  • 45 张图片
  • 1064 张图片
  • 259 张图片
  • 607 张图片
  • 161 张图片

复杂性:将复杂的风景与简单的图像混合在一起。

结果:质量很大程度上取决于任务的难度。在我的场景中,要分类的图像与训练数据中的图像非常相似。在这些情况下,具有 160 张及以上图像的所有类别都被相当可靠地识别。

我会做更多的测试并更新我的答案。