数据挖掘 - 《理解机器学习：从理论到算法》通用逼近定理 - 吾爱随笔录

《理解机器学习：从理论到算法》通用逼近定理

数据挖掘机器学习神经网络深度学习

2022-02-25 09:53:07

我正在准备“理解机器学习：从理论到算法”通用逼近定理：

...“网络是通用逼近器。也就是说，对于每个固定精度参数， $\epsilon >0$ , 和每个 Lipschitz 函数 $f : [−1; 1]^{n} \rightarrow [−1; 1]$ ，可以构造一个网络，使得对于每个输入 $\textbf{x} \in [−1; 1]^{n}$ ，网络输出一个介于 $f(x) − \epsilon$ 和 $f(x) + \epsilon$ ”。

在我看来，该功能 $f : [−1; 1]^{n} \rightarrow [−1; 1]$ 是布尔值。

我认为n维单位超立方体 $[-1,1]^{n}$ 可以用一组紧凑的替换 $\mathbb{R} ^ {n}$ 但共域让我感到困惑。

我期待一个功能： $f : \mathbb { R } ^ { n } \rightarrow \mathbb { R }$

2个回答

是的，它适用于布尔函数，您可以将结果修改为紧凑集。

codomian 所在的结果 $[-1, 1]$ 将涵盖回归而不是将我们自己限制为布尔值。

你可能有也可能没有结果 $f: \mathbb{R}^n \to \mathbb{R}$ . 一个定理说明了它需要什么条件才能成立，对于一个定理没有承诺的条件，你必须仔细检查相同的结论是否仍然适用。特别是，如果证明使用紧凑性，那么你不能替换 $[-1,1]$ 和 $\mathbb{R}$ .

该定理有不同的版本；例如，参见维基百科。

一些反例将有助于关注什么是可能的，什么是不可能的。我不会对此过于正式，但我认为可以通过一些努力来做到这一点。假设我们正在使用 ReLU 激活函数，因此最终的一切都是分段线性和连续的。对于固定的网络架构，最终函数中的铰链点数量是有界的（在只有一个隐藏层的网络中，它最多是隐藏神经元数量的两倍）。所以， $f: \mathbb{R}\to[-1,1],\ f(x)=\sin(x)$ 无法近似：在所有铰链点之外，我们只有一个线性函数，它不能像摆动一样 $\sin$ . 使用类似于 $\sin(1/x)$ . 所以我们需要一个紧凑的域。

如果您想要在每个输入都接近正确输出的意义上进行近似，您显然还需要连续性：跳跃不连续性可以用非常高的斜率来近似，但只能在近似差的点的测量可以是根据需要制作得尽可能小（但为正）。

而现在，紧集的连续图像是紧的，所以范围必然是紧的。（所以在这里你可以安全地将定理扩展为具有 codomain $\mathbb{R}$ .)

其它你可能感兴趣的问题

上一篇使用熊猫在行输入之间添加和减去等于下一行第一列的值下一篇加权 KNN 背后的逻辑