我想将产品图像分类为 8 个离散类。出于多种原因,输入图像的数量需要尽可能少。与此相关,我有两个问题:
- 我可以采用哪些策略来减少图像数量或所需图像
- 每个类别所需的图像数量是多少(A)在图像总是被隔离的简单场景中,见下文或(B)在图像是风景的复杂场景中(也见下文)。我知道这通常很难说,但一个粗略的数字就可以了。
附加信息
建筑学
目前,CNN 似乎最适合这个问题。我也在考虑一个预训练的网络(去除强大网络的深层,比如 AlexNet)。
数据
想象一下,我正在尝试按餐桌的腿类型对餐桌进行分类。在简单的场景中,来自 3 个不同类的图像可能如下所示:
在复杂的场景中,它们可能如下所示:
减少所需输入数据的技术
我有几个想法可以减少对数据的需求(请添加您自己的):
- 使用预训练的网络(好主意与否?)
- 预处理图像(如何?摆弄图像方向?)
- 更深入地更改图像是否有意义(例如砍掉前 50%,因为我只关心腿?)
我期待着你的想法!



