数据挖掘 - 信息瓶颈与深度神经网络 - 吾爱随笔录

信息瓶颈与深度神经网络

数据挖掘神经网络深度学习信息论

2022-02-23 03:16:59

我了解了“深度学习的信息瓶颈观”。但简而言之，这告诉我们什么？

只要大于2或3，我看不出这种方法的深度有什么作用。有严格的理论吗？或者只是一些关于深度神经网络的假设或启发式解释？

我在YouTube 上看到了作者的演讲。但是，可能是我的无知，我并没有真正理解重点和含义。我可以在视频的图表上看到很多解释，但老实说，我不明白。

任何意见，建议，意见将不胜感激。

1个回答

当前的统计学习理论将学习算法视为“黑匣子”，分析其输入与输出。此外，它通常因缺乏非空界而受到批评（尽管 Diziugaite 和 Roy 证明了非空界）。

信息瓶颈理论为学习问题带来了信息理论的视角，使我们能够使用信息度量来分析培训期间发生的事情。当你这样做时，IBT 会预测训练的两个不同阶段之间的相变（拟合阶段，模型快速拟合数据；压缩阶段，模型忘记数据集的无关信息，试图避免过度拟合）。

正如 Tishby 本人所承认的那样，这并不是一个经过验证的严谨理论（请参阅 DeepMath 2020 会议中的视频），这种缺乏严谨性引起了很多批评（请参阅 Saxe 等人的“On the IBT”。他们并不是唯一受到批评的人））。Stefano Soatto 和 Alessandro Achille 在他们位于加利福尼亚的研究小组中采用了一种可以被视为 IBT 领域的更严格的方法（参见深度表示中不变性的出现和解开）。

尽管如此，它仍然是一个建立严谨性的“新兴领域”。IBT 的有趣之处在于它为训练期间发生的事情赋予了新的意义（叙述）。在这个叙述中，不存在泛化悖论（参见 Zhang,Bengio 等人“理解……重新思考泛化”），因为重要的不是模型的参数数量，而是它所拥有的关于模型的信息量。训练数据集。

其它你可能感兴趣的问题

上一篇N-gram 模型的训练阶段是什么？下一篇为什么转换器在每一层都屏蔽而不是只在输入层屏蔽？