是否有可能解码哪个神经元代表哪个特征以及它为什么代表它?

数据挖掘 神经网络 深度学习
2022-03-11 04:58:40

在神经网络中,网络中的每个神经元代表输入的非线性特征的一部分。例如:就像在 mnist 数据中一样,考虑数字 9 的茎被切割成多个部分,不同的部分由第一个隐藏层中的不同神经元表示(只是 3B1B 神经网络视频中的一个例子)。我的问题是:

是什么决定了哪个神经元代表茎的哪个部分?

如果我们多次传入相同的输入,是否有可能每个神经元可以代表茎的不同部分?或者这就是链式法则的全部魔力(即,一开始,所有神经元都代表一些垃圾特征,并且随着权重的更新,然后特定特征已经成为特定神经元的同义词。)如果是这样,这是怎么发生的?

提前致谢

2个回答

简短的回答:不。

想想看,你可能有 5 或 5000 个神经元,每个神经元在不同的模型中代表不同的事物,具有不同的输入。

神经网络的问题之一是很难理解其中的内容,它们有点像一个黑匣子。决策树等其他技术更容易理解或向非技术人员解释。

您可以做的最接近的事情是将隐藏层可视化,这可能会给您一些洞察力。

首先,正如 3B1B 所指出的,神经元最终不一定会像片段然后循环然后整数这样干净的特征。

是什么决定了哪个神经元代表茎的哪个部分?

如果我们多次传入相同的输入,是否有可能每个神经元可以代表茎的不同部分?或者这就是链式法则的全部魔力(即,一开始,所有神经元都代表一些垃圾特征,并且随着权重的更新,然后特定特征已经成为特定神经元的同义词。)如果是这样,这是怎么发生的?

这是对神经元的初始权重分配,然后是梯度下降(涉及大量链式规则应用)。每个神经元开始的“垃圾特征”是可怕的预测因子,但它们“接近”不同的有用预测因子。当应用梯度下降时,它们被推向各自“最接近”的改进特征。

除非我不熟悉流行实现中的一些额外随机性,否则如果您固定了初始权重和输入的顺序/批处理,您最终会得到相同的网络。但是,如果说输入以不同的顺序传递,有可能(可能?)梯度下降会以不同的方式推动权重,以致最终特征分布到不同的神经元,甚至与第一次运行的特征完全不同。