问题设置
给定训练数据集,我们必须对数据进行二进制分类,其中大多数项目属于类和一些项目属于类,所以类严重不平衡。
方法
我们想使用 GAN 来生成更多的类样本,这样我们最终的分类模型就有一个几乎平衡的训练集。
问题
假设来自两个类的数据和非常相似。鉴于我们想要生成具有类的合成数据使用 GAN,我们提供真实的我们与生成的样本一起进入鉴别器的样本。然而,和是相似的。生成器可能会生成一个项目, 那自然属于类. 但是由于鉴别器从未见过类-之前的项目和两个类都非常接近,鉴别器可以说这个项目是输入鉴别器的原始数据的一部分。所以,生成器成功地欺骗了判别器,让他们相信一个项目是类的原始数据的一部分, 尽管实际上是课堂的一部分.
如果 GAN 继续生成这样的项目,则生成的数据是无用的,因为如果合并的话,它会给原始数据增加很大的噪声。
同时,假设在我们开始训练生成器之前,我们向判别器展示我们的类和样本同时提供信息,该类-项目不是类的一部分(通过反向传播)。鉴别器将学会拒绝类-喂给它的物品。但这不就意味着判别器刚刚成为我们想要建立的分类模型来区分类别吗?和班级?
您知道上述问题的任何解决方案吗,或者您可以参考一些论文/其他帖子吗?