场景:我正在尝试创建一个数据集,其中包含为不同动物类别选择的图像。我将使用 CNN 训练这些图像进行分类。
问题:假设我不知何故没有收集太多图像的特权,并且只能为每个班级收集一些图像。这是列表:
| id | animal | # |
|----|--------------|-------|
| 1 | Baboon | 800 |
| 2 | Fox | 1000 |
| 3 | Hyena | 5000 |
| 4 | Giraffe | 43 |
| 5 | Zebra | 88 |
| 6 | Hippopotamus | 233 |
| 7 | Yak | 578 |
| 8 | Polar Bear | 456 |
| 9 | Lion | 3442 |
| 10 | Indian Tiger | 40000 |
我有三个问题。
这是训练 CNN 模型的好数据集吗?我担心每个班级的数量。
如果我增加数据会有帮助吗?我想我会增加它。
未来,上述数据集将会增加。所以我有机会再次训练模型。我应该创建一个适合当前数据大小的模型,还是应该创建一个更大的模型来调整未来的数据?
我可以从互联网上获取数据。但是这个问题是关于当我们拥有少量数据时采取的方法,比如国家数据科学碗(对浮游生物进行分类)中的数据。