为什么批量大小接近 1 比 100+ 的批量大小时 VAE 训练得更好?

人工智能 变分自动编码器 批量大小 批量学习
2021-11-02 00:07:27

我一直在训练一个 VAE 来重建人名,当我在大约 5 个小时的训练后以 100+ 的批量训练它时,无论输入如何,它往往只会输出相同的东西,而且我也在使用教师强制. 当我使用较低的批量大小(例如 1)时,它会过度拟合,而批量大小为 16 往往会提供更好的泛化效果。是否有一些关于 VAE 的东西可以实现这一点?还是只是我的具体问题?

0个回答
没有发现任何回复~