好的近似值会产生好的梯度吗?

人工智能 神经网络 梯度下降
2021-10-24 06:04:37

假设我有一个神经网络在做分类,我正在做随机梯度下降来训练它。如果我知道我当前的近似值是一个不错的近似值,我是否可以得出结论,我的梯度是真实分类器梯度的一个不错的近似值?

具体来说,假设我有一个真正的损失函数,f,以及它的估计,fk. 是否存在一个c(依赖于fk) 这样对于所有人xϵ>0如果|f(x)fk(x)|<ϵ然后|f(x)fk(x)|<cϵ? 这不适用于一般功能,但可能适用于神经网络。如果这个确切的陈述是不正确的,那么是否有沿着这些思路的东西呢?如果我们对NN设置一些限制怎么办?

我想到的目标是,我试图弄清楚如何计算我可以使用特定样本来估计梯度而不会导致错误变得太糟糕的时间。如果我处于重新采样成本高昂的环境中,那么只要我没有让我的错误太大,那么多次重复使用同一个样本可能是值得的。如果我使用相同的样本,我的长期目标是确定我有多少错误k次,据我所知,这似乎不是文献中的内容。

1个回答

一般来说|f(x)fk(x)|ϵ不能保证|f(x)fk(x)|cϵ. 对于神经网络,也没有理由相信它会发生。

您还可以查看 Sobolev 培训论文 ( https://arxiv.org/abs/1706.04859 )。特别要注意的是,Sobolev 训练比critic 训练要好,这间接可能表明逼近函数可能与逼近梯度和函数不同。在 Sobolev 训练中,网络被训练为匹配梯度和函数,而在评论家训练中,网络被训练为匹配函数。它们产生了完全不同的结果,这可能会给我们一些关于上述问题的提示。

一般来说,如果两个函数是任意接近的,它们在梯度上可能不会接近。

编辑:(试图提出一个反面例子)考虑f(x)=g(x)+ϵsin(kxϵ).g(x)是一些神经网络。现在,我们训练另一个神经网络h(x)适合f(x)训练后我们得到h(x)=g(x)(h(x)g(x)精确地具有相同的权重)。然而,fx=gx+kcos(kxϵ)不是任意接近的gx.

我希望这个例子足以证明一个很好地逼近函数的神经网络可能不能很好地逼近梯度,并且没有这样的结果可以在数学上得到严格的证明。但是,考虑到讨论中的论文,您可能会认为出于实际目的它是有效的。但是,如果您有可用的功能和毕业生信息,预计效果会更好。