《理解机器学习:从理论到算法》通用逼近定理

数据挖掘 机器学习 神经网络 深度学习
2022-02-25 09:53:07

我正在准备“理解机器学习:从理论到算法”通用逼近定理:

...“网络是通用逼近器。也就是说,对于每个固定精度参数,ϵ>0, 和每个 Lipschitz 函数f:[1;1]n[1;1],可以构造一个网络,使得对于每个输入x[1;1]n,网络输出一个介于f(x)ϵf(x)+ϵ”。

在我看来,该功能f:[1;1]n[1;1]是布尔值。

我认为n维单位超立方体[1,1]n可以用一组紧凑的替换Rn但共域让我感到困惑。

我期待一个功能: f:RnR

2个回答

是的,它适用于布尔函数,您可以将结果修改为紧凑集。

codomian 所在的结果[1,1]将涵盖回归而不是将我们自己限制为布尔值。

你可能有也可能没有结果f:RnR. 一个定理说明了它需要什么条件才能成立,对于一个定理没有承诺的条件,你必须仔细检查相同的结论是否仍然适用。特别是,如果证明使用紧凑性,那么你不能替换[1,1]R.

该定理有不同的版本;例如,参见维基百科

一些反例将有助于关注什么是可能的,什么是不可能的。我不会对此过于正式,但我认为可以通过一些努力来做到这一点。假设我们正在使用 ReLU 激活函数,因此最终的一切都是分段线性和连续的。对于固定的网络架构,最终函数中的铰链点数量是有界的(在只有一个隐藏层的网络中,它最多是隐藏神经元数量的两倍)。所以,f:R[1,1], f(x)=sin(x)无法近似:在所有铰链点之外,我们只有一个线性函数,它不能像摆动一样sin. 使用类似于sin(1/x). 所以我们需要一个紧凑的域。

如果您想要在每个输入都接近正确输出的意义上进行近似,您显然还需要连续性:跳跃不连续性可以用非常高的斜率来近似,但只能在近似差的点的测量可以是根据需要制作得尽可能小(但为正)。

而现在,紧集的连续图像是紧的,所以范围必然是紧的。(所以在这里你可以安全地将定理扩展为具有 codomainR.)