我正在(一般)图像数据上训练自动编码器。
我使用二元交叉熵损失函数,但是当我想评估我的自动编码器的性能时,它的信息量不是很大。
一个明显的性能指标是逐像素 MSE,但它也有其自身的缺点,如Pihlgren 等人的论文中的图像中的一些玩具示例所示。
在同一篇论文中,作者建议使用感知损失,但它似乎很复杂且没有得到充分研究。
我知道这取决于应用程序,但我想知道在图像数据上训练自动编码器时是否有一些关于使用哪个性能指标的一般准则。
我正在(一般)图像数据上训练自动编码器。
我使用二元交叉熵损失函数,但是当我想评估我的自动编码器的性能时,它的信息量不是很大。
一个明显的性能指标是逐像素 MSE,但它也有其自身的缺点,如Pihlgren 等人的论文中的图像中的一些玩具示例所示。
在同一篇论文中,作者建议使用感知损失,但它似乎很复杂且没有得到充分研究。
我知道这取决于应用程序,但我想知道在图像数据上训练自动编码器时是否有一些关于使用哪个性能指标的一般准则。
我将回答我自己的问题以尝试提供一些见解。
我的研究主管建议我应该使用SSIM 度量或其他一些著名的图像处理度量(参见Wang 和 Bovik 的《现代图像质量评估》一书)来评估图像的视觉相似性。
我评估自动编码器性能的另一种方法是简单地直观地比较从测试集中获取的输入和输出图像。这绝不是非常科学的,但它很好地说明了自动编码器是否能够重建输入图像。我要在这里补充的一件事是,即使自动编码器可以完美地重建图像,但这并不意味着它学习的编码是有用的。例如,当我希望将相似的图像映射到相似的编码时,与没有实现这种相似性保留(但输出更好的重建)的自动编码器相比,能够做得更好的自动编码器输出更多模糊的重建图像.