为什么只有一种人工神经元?

数据挖掘 深度学习 神经网络 感知器
2022-03-11 03:09:02

我觉得奇怪的是,在过去十年中发明了如此多的深度学习技巧和改进,但我从未听说有人尝试过除了基于感知器的人工神经元的不同模型:

y = w*x + b

我在网上找不到太多关于此的信息,这令人惊讶。我不是机器学习专家,但据我所知,至少尝试其他选项对我来说是有意义的。一个简单的例子,如果网络中有一个由神经元组成的层会发生什么

y = w*x^2 + b

也许有一个明显的答案来解释为什么我上面的建议不是一个好主意,但我更喜欢一个解释为什么通常没有被调查的答案(至少据我所知)。

3个回答

您引用的示例(使用 x^2 而不是 x)是在深度学习社区之外更流行的想法,称为特征工程。相反,神经网络建模的趋势是,

  1. 使用权重 (w) 并对其进行微调。
  2. 不更改输入向量 (x),而是直接将其输入网络。
  3. 如果单层神经网络不够好,则添加更多层。
  4. 使用激活函数引入非线性。
  5. 通常,不是手动滚动特征(如 x^2),而是让神经网络发现这些特征。

我认为“神经元”的类比对于理解人工神经网络的情况并不是很有帮助。

神经网络不是由“神经元”组成,而是由可微操作组成。这些操作是任意的,例如卷积、索引(在嵌入中)、池化等。

您提出的是假设神经网络的一个完全有效的构建块。

经典的“神经元”类比用于解释多层感知器(MLP),它只是一系列完全连接的层,其间有非线性激活。一旦你离开了简单的 MLP,应用神经元类比就会变得更加麻烦。

这个问题可能有很多答案,但可能是因为它只是不必要的复杂性。

您可以使用当前架构获得相同的结果(x2)(即使用乘法层;更不用说只是对输入特征进行平方)。为什么要使用更具体的东西而不是更一般的东西?

除此之外,为什么您的最终结果会从中受益?您可以通过许多其他方式引入非线性。这就是激活函数的目的。