有没有人见过任何使用 GAN 的应用程序,该应用程序将获取输入图像并输出相同大小的图像,可以用作第一张图像的层。该层将包含在例如。输入图像中的兴趣点。这甚至会是 GAN 使用的一个好习惯吗?
我正在寻找使用类似内容的文章和应用程序示例。
有没有人见过任何使用 GAN 的应用程序,该应用程序将获取输入图像并输出相同大小的图像,可以用作第一张图像的层。该层将包含在例如。输入图像中的兴趣点。这甚至会是 GAN 使用的一个好习惯吗?
我正在寻找使用类似内容的文章和应用程序示例。
就生成图像“层”而言,这与使用标准图形软件生成可以覆盖在输入上的输出图像相同。如果您想要输出中的像素级精度,那么输出将需要与输入的大小相同,否则它可能会更小,前提是它具有相同的纵横比,在这种情况下,它需要按比例放大为了用作覆盖。无论如何,由于 GAN 的输出可以是图像(而且经常是),所以这部分很容易。
GAN 中的“G”代表 Generative。生成网络的目的是从总体中创建样本,其中通常有很多可能性。这些样本可以以一些额外的数据为条件,并且这些额外的数据可以是图像,尽管许多示例将更简单的条件,例如训练输出所代表的类别。
使用 GAN 的一种可能性是,您的群体包含一系列特征,您可以计算控制该特征的向量。因此,您可以获取输入图像,在 GAN 中对其进行重建,然后通过添加/减去特征相关向量来对其进行修改。一个有趣的例子是Face Aging With Conditional Generative Adversarial Networks,类似的例子是添加/移除眼镜等。为了适合你,你需要有你感兴趣的点的图像和没有的图像它们,然后您将能够控制兴趣点的添加/删除。网络不会在输入中检测到这些点,而是将它们添加到输出中。从阅读您的问题来看,这似乎不是您想要的。
一篇类似的论文使用 GAN 从照片中去除雨水,基于训练许多有雨和无雨的图像,然后学习“雨矢量”,将其中有雨的新图像编码到 GAN 的内部表示中并减去这个“雨矢量”。
以输入图像为条件的 GAN(与类别或内部嵌入相反)也是可能的——这个图像补全示例可能更接近您的目标。如果您的兴趣点是可变的,并且有许多可行的选项,那么它可能适合您。
但是,如果您的兴趣点应该始终是每张图像中的相同像素,那么您的目标可能会更好地由严格的基本事实定义,并且变得更像语义分割,可以尝试使用 CNN 的变体,例如在微软的这篇论文。这些比 GAN 更容易设置和训练,所以如果你能合理地将问题框架化为原始图像的像素分类,这可能是要走的路。