机器算法验证 - 为什么生成对抗网络被归类为无监督 - 吾爱随笔录

为什么生成对抗网络被归类为无监督

机器算法验证无监督学习监督学习甘

2022-03-21 07:38:45

问题的标题基本上就是我要问的，但我应该解释一下为什么 GAN 对我来说似乎不是无监督的！

这是我对无监督学习的理解：无监督学习是指你有一组数据（X 值）但没有类（y 值）。它通常用于将数据中的相似样本聚集在一起。

这是我对 GAN 工作原理的理解：你有一个生成器，它从随机噪声输入中生成数据样本。生成数百个样本并将其与一堆真实示例一起馈送到鉴别器；鉴别器处理每个样本并输出每个样本是真实的或生成的可能性。判别器的预测与真实的（无论是否生成样本）进行比较，然后判别器通过反向传播周期来学习更好地进行判别。来自鉴别器的预测也作为成本反馈给生成器（或者如果鉴别器使用 1 表示真实，使用 0 表示假，我猜是 1-成本）。然后生成器通过反向传播来更好地欺骗鉴别器。

如果上述两个陈述都成立，则系统在没有标记数据的情况下无法工作，因此是监督学习。问题是我已经阅读了多篇文章，这些文章明确指出生成对抗网络是无监督的。我的头撞墙在哪里？

2个回答

GAN 有很多不同的风格，所以在这个答案中，我将参考原始 GAN。它被认为是无监督的，因为你不假设你的数据集中有一个目标变量——如果你有一个，你就不会使用它。您所需要的只是一些特征（例如图像）——您不需要这些图像的类标签信息等。您的目标是从生成这些图像的分布中采样（通过生成器）。

你是对的，尽管 GAN 内部通过鉴别器进行了一些监督学习。即，鉴别器是二元分类器。标签不描述图像的内容，它们不是训练集的一部分。它只是一个指示图像是来自训练集还是来自生成器。

因此，从这个意义上说，GAN 适用于没有标签信息的无监督问题，但它也结合了监督学习的技术。因此，将其称为“无监督学习”技术只是一种约定，在这种情况下，它需要解释（我的意思是，DL 技术语言无论如何都被许多不一致的术语所破坏，所以我们不应该太认真或字面意思是我猜测：））

我认为以下观点可能会进一步澄清这种困惑。

生成对抗网络试图通过联合解决无监督学习问题

一个有监督的学习问题，
一个优化问题。

假设我们有没有标签的 x1,...,xN 形式的训练数据。由于没有标签，这个问题是无监督的。假设我们训练一个生成器来生成假样本，同时训练一个鉴别器来区分真实样本和假样本。

训练判别器是一个监督学习问题。训练生成器来欺骗判别器是一个优化问题。

总结：可以在没有标签的数据上训练 GAN，无监督学习。这样做需要我们共同解决一个监督学习问题和一个优化问题。

其它你可能感兴趣的问题

上一篇样本方差的标准误下一篇集群标准错误 - 为什么 SE 比 OLS 更小或更大取决于集群级别？