在有关随机优化方法(例如 SGD)的论文中,人们经常谈论梯度的方差并且主要表达如下:
这让我想起了随机变量的标准方差定义, 那是:
.
所以这让我感到困惑:
- 在上面的表达式中,我们有, 不是. 那么为什么 l2 范数会出现在这里呢?
- 是向量值随机变量,其值在.对于向量值随机变量,方差应该是,即方差-协方差矩阵。为什么我们仍然在这里应用另一个公式?
我不是统计专家,因此非常感谢您的澄清。
先感谢您!
在有关随机优化方法(例如 SGD)的论文中,人们经常谈论梯度的方差并且主要表达如下:
这让我想起了随机变量的标准方差定义, 那是:
所以这让我感到困惑:
我不是统计专家,因此非常感谢您的澄清。
先感谢您!
我对这个问题进行了更多思考,得出了以下结论:大多数处理 SGD 方差减少的论文(SVRG、SAGA 和 SAG 等方法)实际上是指梯度方差的 1-范数(trace的 cov 矩阵)当他们写.
假设随机梯度 是我们拥有的真实梯度的无偏估计: