如何像 β-VAE 文章那样检查潜在空间的质量?

数据挖掘 机器学习 神经网络 自动编码器
2022-03-07 00:32:16

β-VAE 文章中有一个很好的图,显示了潜在空间代码的质量:

β-VAE

是否有一种通用的方法来可视化或分析潜在空间代码维度,以便在它们过于纠缠或混乱时清楚?

升级版:

该数据集由呈现在黑色画布上不同位置的高斯斑点组成。顶行:原始图像。第二行:相应的重建。剩余行:潜在遍历按其与先验的平均 KL 散度排序(从高到低)。为了生成遍历,我们通过从种子图像(左侧数据样本)推断潜在表示来初始化它,然后遍历单个潜在维度(在 [-3, 3] 中),同时保持剩余的潜在维度固定,并绘制结果重建。热图显示每个潜在单元的 2D 位置调整,对应于给定 blob 的每个可能 2D 位置的每个潜在单元的推断平均值(蓝色峰值,-3;白色,0;红色峰值,3)。

这意味着要生成这样的热图,应该能够在知道 blob 位置的同时平滑地移动 blob。所以实际上应该知道什么是最好的潜在编码。而情节实际上是与这种最佳潜在编码的比较。

当我不知道什么是最好的潜在代码时,我很好奇是否有一种方法可以测量或绘制有助于理解潜在代码质量的“某些东西”

2个回答

从来没听说过。请注意,这些热图依赖于人类知道他们想要什么,然后设计这种热图方法来可视化它。

对于许多对潜在生成解缠结感兴趣的论文,“检查”质量的最流行方法是通过在潜在空间中插值并可视化输出,在每个解缠结维度上查看它。然后,人们可以“看到”它们是否确实被解开​​。

理想情况下,还有其他方法可以量化这种解开,但它通常需要额外的信息。例如,对于图像,可能具有可以使用的标签(例如,亮度、个人身份)。或者,如在β-VAE论文,可以使用一个潜在潜在因素已知的玩具问题。然后人们可以设计一种方法来检查是否真的分离了这些潜在因素。最终评估取决于数据和任务。

如果只想可视化潜在空间,通常这些插值图很受欢迎。但它是定性的。通常,潜在空间的定量评估需要额外的下游任务。

这篇文章看起来是解决这个问题的一个很好的尝试:

InfoGAN-CR 和 ModelCentrality:解开 GAN 的自监督模型训练和选择