机器算法验证 - 神经网络和非线性回归之间的本质区别是什么？ - 吾爱随笔录

神经网络和非线性回归之间的本质区别是什么？

机器算法验证回归神经网络非线性回归

2022-02-17 12:35:32

人工神经网络通常（贬义地）称为“美化回归”。人工神经网络和多元/多元线性回归之间的主要区别当然是人工神经网络模型非线性关系。

那么人工神经网络和多元/多元非线性回归模型有什么区别呢？

我唯一能想到的是神经网络的类图结构，它允许有效的参数学习过程（反向传播）和其他优点（深度网络中层的灵活堆叠允许特征学习等）。

它们可以有效地称为“美化的非线性回归”吗？或者还有更多？

编辑：在这里找到了一个很好的讨论https://www.quora.com/Is-Machine-Learning-just-glorified-curve-fitting 基本上同意差异主要是细微差别，但方法相似。

我知道在这种情况下，答案更多是主观的，这个问题不适合 stackexchange。

1个回答

理论上，是的。在实践中，事情更加微妙。

首先，让我们从评论中提出的疑问中清除该领域：神经网络可以以无缝方式处理多个输出，因此我们是否考虑多元回归并不重要（参见统计学习的元素，第11.4)。

话虽如此，具有固定架构和损失函数的神经网络确实只是一个参数非线性回归模型。因此，它甚至不如高斯过程等非参数模型灵活。准确地说，具有 sigmoid 或 tanh 激活函数的单个隐藏层神经网络不如高斯过程灵活：参见http://mlss.tuebingen.mpg.de/2015/slides/ghahramani/gp-neural-nets15 .pdf。对于深度网络，这不是真的，但是当您考虑深度高斯过程时，它再次变得正确。

那么，为什么深度神经网络如此重要？有很好的理由：

当您使用 Levenberg-Marquard 算法拟合非线性最小二乘模型时，它们允许拟合您甚至不会开始梦想的复杂模型。参见例如https://arxiv.org/pdf/1611.05431.pdf、https://arxiv.org/pdf/1706.02677.pdf和https://arxiv.org/pdf/1805.00932.pdf其中参数的数量 $p$ 从 25 到 8.29 亿。当然，DNN 被过度参数化、不可识别等，因此参数的数量与模型的“自由度”非常不同（一些直觉参见https://arxiv.org/abs/1804.08838）。尽管如此，无可否认的惊人模型 $N <<p$ ( $N=$ 样本量）能够很好地概括。
它们扩展到庞大的数据集。普通高斯过程是一个非常灵活的模型，但推理具有 $O(N^3)$ 这对于像 ImageNet 或更大的数据集（如Open Image V4 ）是完全不可接受的。GPs 的推断与 NNs 的规模一样大，但我不知道为什么他们不享有同样的名声（好吧，我对此有自己的想法，但我们不要离题）。
对于某些任务，它们非常准确，比许多其他统计学习模型要好得多。您可以尝试使用 65536 输入内核 SVM 或随机森林来匹配 ImageNet 上的 ResNeXt 精度。祝你好运。

但是，理论之间的真正区别：

所有神经网络都是参数非线性回归或分类模型

在我看来，实践是，在实践中，深度神经网络的任何事情都没有真正提前固定，所以你最终会从一个比你预期的更大的类别中拟合一个模型。在实际应用中，这些方面都不是真正固定的：

架构（假设我进行序列建模：我应该使用 RNN 吗？扩张的 CNN？基于注意力的模型？）
架构的细节（有多少层？第 1 层有多少单元，第 2 层有多少单元，哪些激活函数等）
如何预处理数据？标准化？最小最大归一化？强大的缩放器？
一种正则化（ $l_1$ ? $l_2$ ? 批量规范？ReLU 之前还是之后？辍学？在哪几层之间？）
优化器（SGD？Path-SGD？Entropy-SGD？Adam？等）
其他超参数，如学习率、提前停止等。
甚至损失函数也往往没有提前固定！我们主要将 NN 用于两种应用（回归和分类），但人们使用大量不同的损失函数。

就 DNN 而言，即使在具有强烈季节性信号且特征数量较少的相对简单的情况下，也执行了多少选择：

https://stackoverflow.com/questions/48929272/non-linear-multivariate-time-series-response-prediction-using-rnn

因此在实践中，即使理想情况下拟合 DNN 也意味着只拟合该类型的模型

$y=f(\mathbf{x}\vert\boldsymbol{\theta})+\epsilon$

其中具有一定的层次结构，实际上很少（如果有的话）预先定义函数和拟合方法，因此该模型比“经典”参数非线性模型灵活得多。 $f$

其它你可能感兴趣的问题

上一篇平均回归系数以建立模型是否存在任何理论问题？下一篇提升逻辑回归模型