“变量”是什么意思?

机器算法验证 机器学习 优化 推理
2022-02-12 04:48:56

“变分”的使用是否总是指通过变分推理进行优化?

例子:

  • “变分自动编码器”
  • “变分贝叶斯方法”
  • “变分重整化群”
2个回答

这意味着使用变分推理(至少对于前两个)。

简而言之,它是一种在概率密度复杂(因此 MLE 很难)时近似最大似然的方法。

它使用证据下界 (ELBO) 作为 ML 的代理:

log(p(x))Eq[log(p,Z)]Eq[log(q(Z))]

在哪里q是隐藏变量上更简单的分布(表示为Z) - 例如,变分自动编码器在编码器的输出上使用正态分布。

'variational' 这个名字很可能来自它搜索分布的事实q优化 ELBO,这种设置有点像变分微积分,这是一个研究函数优化的领域(例如,问题如下:给定两点之间的二维曲线族,找到一个长度最小的曲线)。

David Blei有一个很好的关于变分推理 的教程,如果您想要更具体的描述,可以查看。

编辑:

实际上我描述的是一种VI:通常你可以使用不同的散度(我描述的对应于使用KL散度KL(q,p))。有关详细信息,请参阅本文第 5.2 节(具有替代分歧的 VI)。

你可以在 Jason Eisner 的这个来源中找到一个很好的解释,他引用了:

使用术语变分是因为您选择了 Q 中的最佳 q——该术语源自“变分微积分”,它处理选择最佳函数(在本例中为分布 q)的优化问题。

它发生的一种方式是当您尝试优化一个函数(一个函数F接收一个函数q并返回一个值,例如熵),因此您尝试找到最好的q在一组函数中Q优化F.