直觉/深度学习中中间监督的重要性

数据挖掘 机器学习 神经网络 深度学习 美国有线电视新闻网 监督学习
2022-02-25 06:16:27

这些天,我看到很多论文使用了中间监督

单一网络

当使用单个神经网络时,多个神经元输出预测,可能是通过以不同方式处理数据。然后,损失函数对每个预测计算的各个损失求和。

例如,考虑下面FlowNet架构的一部分:

FlowNet 的一部分

在这个网络中,所有Convolution#层 ( Convolution1, Convolution2, ...) 在网络的不同阶段输出预测。然后,通过对所有这些预测分别应用均方误差并将它们全部相加来计算损失函数。

多个网络

当使用多个网络时,例如Stacked Hourglass Networks

在此处输入图像描述

每个单独的网络输出一个预测,并且通过计算每个网络预测的均方误差并将它们全部相加来计算整体损失函数。

我的问题是:这样做背后的直觉是什么?我认为这将迫使第一个网络学会很好地预测任务,而其余的网络只是执行身份转换。为什么在实践中没有观察到这一点?

另外,我只在 CNN 中看到过这种应用,但我可能是错的。

1个回答

不幸的是,没有数学证明中间监督是否能提高网络的性能。

然而堆栈沙漏文章显示,根据消融研究:使用更多的编码器 - 具有中间监督的解码器单元提高了性能 - 请看下图。

在这种情况下——剩余网络不执行身份转换(尽管剩余网络之间存在剩余连接)。

我的直觉是每个编码器 - 解码器都充当 PCA,保持最主要的特征图。一系列的编码器 - 解码器让网络重新评估特征图,直到它最终获得最有区别的特征图。 在此处输入图像描述