生成对抗文本到图像合成

数据挖掘 嵌入 深度学习 歧管
2022-02-01 11:31:05

任何人都可以解释这一行的含义:“深度网络已被证明可以学习表示,其中嵌入对之间的插值往往靠近数据流形”。

参考:论文Generative Adversarial Text to Image Synthesis的第 4.3 节

1个回答

这句话中有几个重要的概念,所以让我们分解它们。

“数据流形”

这是我们在机器学习问题中使用的常用模型,即将真实数据视为流形我向您推荐Christopher Olah 关于该主题的这篇文章

“嵌入对之间的插值”

生成新数据的一种方法是对神经网络学习的嵌入空间进行采样。例如,您可以获取两个真实数据样本,计算它们的嵌入,对它们进行插值以获得中间嵌入,然后在输入此中间嵌入时查看神经网络的输出。

“嵌入对之间的插值往往靠近数据流形”

在上一步之后,您的神经网络的输出应该是真实的。用数学术语来说,它应该接近真实数据流形

这是生成模型的要点,例如生成对抗网络或变分自动编码器。他们学习将一些随机分布(通常是高斯分布)拟合到真实数据分布,并且他们学习将噪声“转换”为真实数据,反之亦然。

这通常被称为解缠结。正如文章在句子后引用的第一篇论文中所解释的那样,

如果训练有素,更深层次的表征往往会更好地解开潜在的变异因素。

换句话说,我们可以获得分离真实数据变化因素的深度嵌入。理想情况下,人脸的嵌入可以隔离控制头发颜色、嘴巴表情等的轴(例如TL-GAN)。但这些变化因素并不总是那么容易解释。