信息瓶颈与深度神经网络

数据挖掘 神经网络 深度学习 信息论
2022-02-23 03:16:59

我了解了“深度学习的信息瓶颈观”。但简而言之,这告诉我们什么?

只要大于2或3,我看不出这种方法的深度有什么作用。有严格的理论吗?或者只是一些关于深度神经网络的假设或启发式解释?

我在YouTube 上看到了作者的演讲但是,可能是我的无知,我并没有真正理解重点和含义。我可以在视频的图表上看到很多解释,但老实说,我不明白。

任何意见,建议,意见将不胜感激。

1个回答

当前的统计学习理论将学习算法视为“黑匣子”,分析其输入与输出。此外,它通常因缺乏非空界而受到批评(尽管 Diziugaite 和 Roy 证明了非空界)。

信息瓶颈理论为学习问题带来了信息理论的视角,使我们能够使用信息度量来分析培训期间发生的事情。当你这样做时,IBT 会预测训练的两个不同阶段之间的相变(拟合阶段,模型快速拟合数据;压缩阶段,模型忘记数据集的无关信息,试图避免过度拟合)。

正如 Tishby 本人所承认的那样,这并不是一个经过验证的严谨理论(请参阅 DeepMath 2020 会议中的视频),这种缺乏严谨性引起了很多批评(请参阅 Saxe 等人的“On the IBT”。他们并不是唯一受到批评的人) )。Stefano Soatto 和 Alessandro Achille 在他们位于加利福尼亚的研究小组中采用了一种可以被视为 IBT 领域的更严格的方法(参见深度表示中不变性的出现和解开)。

尽管如此,它仍然是一个建立严谨性的“新兴领域”。IBT 的有趣之处在于它为训练期间发生的事情赋予了新的意义(叙述)。在这个叙述中,不存在泛化悖论(参见 Zhang,Bengio 等人“理解……重新思考泛化”),因为重要的不是模型的参数数量,而是它所拥有的关于模型的信息量。训练数据集。