“变分”的使用是否总是指通过变分推理进行优化?
例子:
- “变分自动编码器”
- “变分贝叶斯方法”
- “变分重整化群”
“变分”的使用是否总是指通过变分推理进行优化?
例子:
这意味着使用变分推理(至少对于前两个)。
简而言之,它是一种在概率密度复杂(因此 MLE 很难)时近似最大似然的方法。
它使用证据下界 (ELBO) 作为 ML 的代理:
在哪里是隐藏变量上更简单的分布(表示为) - 例如,变分自动编码器在编码器的输出上使用正态分布。
'variational' 这个名字很可能来自它搜索分布的事实优化 ELBO,这种设置有点像变分微积分,这是一个研究函数优化的领域(例如,问题如下:给定两点之间的二维曲线族,找到一个长度最小的曲线)。
David Blei有一个很好的关于变分推理 的教程,如果您想要更具体的描述,可以查看。
编辑:
实际上我描述的是一种VI:通常你可以使用不同的散度(我描述的对应于使用KL散度)。有关详细信息,请参阅本文第 5.2 节(具有替代分歧的 VI)。
你可以在 Jason Eisner 的这个来源中找到一个很好的解释,他引用了:
使用术语变分是因为您选择了 Q 中的最佳 q——该术语源自“变分微积分”,它处理选择最佳函数(在本例中为分布 q)的优化问题。
它发生的一种方式是当您尝试优化一个函数(一个函数接收一个函数并返回一个值,例如熵),因此您尝试找到最好的在一组函数中优化.