为什么神经网络比梯度下降优化的其他分类函数更受欢迎

人工智能 神经网络 机器学习 比较 函数逼近
2021-10-22 04:00:25

考虑一个神经网络,例如 Nielsen在此处提出的。抽象地说,我们只是构造一些函数f:Rn[0,1]m对于一些n,mN(即输入和输出空间的维度)取决于大量参数,pj. 然后我们只定义成本函数C并计算pC并且只是映射ppϵpC反复。

问题是我们为什么选择f成为标准神经网络中的样子,例如一堆线性组合和sigmoid?一个答案是,有一个定理说任何合适的好函数都可以使用神经网络来近似。但其他类型的函数也是如此f. Stone-Weierstrass 定理给出了我们可以使用多项式n变量:

f(x)=c00+(c11x1+c21x2++cn1xn)+(c112x1x1+c122x1x2++c1n2x1x2+c212x2x1+c222x2x2+)+,

并且仍然有一个很好的近似定理。这里的梯度会更容易计算。为什么不使用多项式?

1个回答

您确实可以将多项式拟合到您的标记数据,这称为多项式回归(例如,可以使用函数来完成numpy.polyfit)。多项式回归的一个明显限制是,在实践中,您需要假设您的数据在某种程度上遵循某些特定的多项式n,即您假设您的数据具有您选择的多项式的形式,这可能不是真的。

当您使用神经网络解决分类或回归问题时,您还需要选择激活函数、神经元的数量、它们的连接方式等,因此您还需要限制您使用的函数的数量和类型可以用神经网络学习,即假设空间

现在,限制假设空间不一定是坏事。实际上,学习通常是一个病态问题,简单来说,可能有多个解或根本没有解(以及其他问题),因此,实际上,您通常需要限制假设空间以找到一些有用的解(例如,可以更好地泛化到看不见的数据的解决方案)。正则化技术是约束学习问题和假设空间(即您的学习算法可以选择的函数集)的方法,从而使学习问题变得适定。

神经网络并不优于多项式回归,因为它们在理论上更强大。事实上,两者都可以逼近任何连续函数[ 1 ],但这些只是理论结果,即这些结果并没有给你神奇的公式来选择最接近所需未知函数的最合适的神经网络或多项式。

在实践中,神经网络已被证明可以有效地解决许多任务(例如自然语言的翻译、围棋或雅达利游戏、图像分类等),所以我想说这是它们被广泛研究的主要原因,并且有对他们很感兴趣。然而,神经网络通常需要大型数据集来很好地逼近期望但未知的函数,训练或执行推理的计算成本可能很高,并且还有其他限制(参见this),因此神经网络绝对不是完美的工具,并且有必要对其进行改进,使其在某些情况下(例如需要进行不确定性估计的情况)更有效和有用。

我对多项式回归的研究并不十分熟悉,但机器学习社区可能忽略了这个工具和其他工具。你可能想看看这篇论文,它说神经网络本质上是在做多项式回归,虽然我没有读过,所以我不知道这篇论文的主要思想和结果的细节。