我可以将图像通道数据打乱作为数据增强的一种形式吗?

人工智能 卷积神经网络 图像处理 卷积
2021-11-14 11:33:57

如果我想扩充我的数据集,对图像的通道 (RGB) 进行洗牌或置换是训练 CNN 的明智扩充吗?IIRC,卷积的工作方式是内核对图像的某些部分进行操作,但保持内核的顺序。

例如,内核有k×k每个通道的权重,得到的输出是图像的权重和像素值的乘积,最后平均以在下一个特征图中形成一个新像素。

在这种情况下,如果我们打乱图像的通道(GBR、BGR、RBG、GRB 等),仅在排序 RGB 上训练的 CNN 在此类图像上表现不佳。因此,将图像的通道打乱作为数据增强的一种形式是否不明智?或者这会对 CNN 模型产生正则化效果吗?

1个回答

作为图像数据增强的经验法则,请查看增强后的图像:

  • 你能从增强图像中正确分类或测量你的目标标签吗?

  • 类似于增强图像的东西是否会出现在您想要对以前看不见的输入进行推理的环境中?

对于您建议的改组频道的建议,它可能会通过第一次测试。但是,第二个测试表明您可能走得太远了。

这会对 CNN 模型产生正则化效果吗?

是的,但是拥有强大的跨渠道正则化可能没有那么有用。

如果在单独的颜色通道中有您的任务的重要信息,那么打乱通道会使神经网络更难使用它(这并非不可能,CNN 仍然可以学习过滤器,这些过滤器将最强烈地触发倾向于例如,在您的问题中出现在红色通道中而不是蓝色通道中)。

如果颜色信息中没有对您的任务重要的信息,那么您可能会发现将图像转换为单通道灰度并在整个过程中使用它更简单、更容易。尽管这并不完全一样,但对于许多图像类型来说,只需一小部分工作就可以实现类似的效果(并可能提高准确性)。