大型确定性优化问题的随机梯度下降

计算科学 优化 随机
2021-12-17 13:58:32

SGD 的 Wikipedia 页面描述了优化函数f=fi(θ;xi)通过从数据的随机子集连续逼近梯度,而大多数文献提出的问题是优化f=E[F(θ,ζ)]对于一些随机变量ζ. 我可以看到这些是如何渐近等价的ζ是来自所有可用观察的样本,并且F(θ;ζ)=xiζfi(θ;xi),从直觉上看,后面的表述似乎更能描述实际的优化任务。但是,对我来说,这些问题不一定有相同的解决方案对我来说并不明显。在什么条件下解相等(凸性等)?是否有任何理论保证随机近似的驻点在某些ϵ-当这些假设不满足时确定性函数的固定点的邻域?

编辑:维基百科说该方法收敛到凸和伪凸函数的全局最优值。我很好奇确定性解决方案与其随机近似之间是否存在任何已建立的错误分析,或者是否使用这些算法是因为它们可以解决通常难以解决的问题,因此错误分析通常是不可能/不重要的?我正在尝试确定 SGD 或几种在线 L-BFGS 方法之一是否是一个足够灵活的框架,适用于我期望有大量数据集大小(从 10 到 10 万)和维度的工具,但是对于大多数二阶方法而言,通常仍然有太多维度,而当问题对于其他确定性方法而言足够小时,不会损失准确性或显着速度。

0个回答
没有发现任何回复~