极限学习机:这是怎么回事?

机器算法验证 回归
2022-02-01 08:02:36

一年多来,我一直在思考、实施和使用极限学习机 (ELM) 范式,我做的时间越长,我就越怀疑它是否真的是一件好事。然而,我的观点似乎与科学界相反——当使用引用和新出版物作为衡量标准时——它似乎是一个热门话题。

ELM 已由Huang 等人介绍。人。大约在 2003 年左右。基本思想相当简单:从 2 层人工神经网络开始,随机分配第一层的系数。这将通常通过反向传播处理的非线性优化问题转换为简单的线性回归问题。更详细,对于,模型是xRD

f(x)=i=1Nhiddenwiσ(vi0+k=1Dvikxk).

现在,只有被调整(为了最小化平方误差损失),而都是随机选择的。作为对自由度损失的补偿,通常的建议是使用相当多的隐藏节点(即自由参数)。wivikwi

从另一个角度来看(不是文献中通常提倡的,它来自神经网络方面),整个过程只是线性回归,但是您可以随机选择基函数,例如ϕ

ϕi(x)=σ(vi0+k=1Dvikxk).

(对于随机函数,除了 sigmoid 之外,还有许多其他选择。例如,使用径向基函数也应用了相同的原理。)

从这个角度来看,整个方法几乎变得过于简单化,这也是我开始怀疑该方法是否真的是一个好方法的点(……而它的科学营销当然是)。所以,这是我的问题:

  • 在我看来,使用随机基函数对输入空间进行栅格化的想法对于低维度是有益的。在高维度上,我认为使用具有合理数量的基函数的随机选择是不可能找到一个好的选择的。因此,ELM 是否会在高维中退化(由于维度灾难)?

  • 你知道支持/反对这种观点的实验结果吗?在链接的论文中,只有一个 27 维回归数据集(PYRIM),该方法的性能类似于 SVM(而我更希望看到与反向传播 ANN 的比较)

  • 更一般地说,我想在这里发表您对 ELM 方法的评论。

2个回答

您对使用 ELM 解决高维问题的直觉是正确的,我对此有一些结果,我正在准备发表。对于许多实际问题,数据不是很非线性,ELM 做得相当好,但总会有数据集,其中维数灾难意味着找到具有曲率的良好基函数的机会就在你需要的地方变得相当很小,即使有很多基向量。

我个人会使用最小二乘支持向量机(或径向基函数网络)之类的东西,并尝试以贪婪的方式从训练集中的基向量中选择基向量(参见例如我的论文,但还有其他/更好的大约在同一时间出版的方法,例如在 Scholkopf 和 Smola 的非常好的书“Learning with Kernels”中)。我认为最好计算一个精确问题的近似解决方案,而不是一个近似问题的精确解决方案,并且内核机器具有更好的理论基础(对于固定内核;o)。

ELM 通过分析求解输出权重从数据中“学习”。因此,输入网络的数据越大,将产生更好的结果。然而,这也需要更多数量的隐藏节点。如果 ELM 的训练几乎没有错误,那么当给定一组新的输入时,它就无法产生正确的输出。

与传统神经网络(如反向传播)相比,ELM 的主要优势在于其快速的训练时间。如 Huang 论文中所述,大部分计算时间都花在求解输出层权重上。