目前对于信息瓶颈原则对理解深度学习的价值是否达成了共识?

机器算法验证 神经网络 参考 深度学习 信息论
2022-04-11 15:17:14

2015 年,Tishby 和 Zaslavsky 发表了一篇著名的论文,声称所谓的信息瓶颈原理可以用来理解深度神经网络的某些行为。最近(2017 年 4 月)的一篇论文中,Schwartz-Ziv 和 Tishby 扩展了这些主张,特别是对一些结果进行了可视化。

2017 年晚些时候,Saxe 等人发表了一篇批评论文。已发布在 OpenReview 网站上(最近有 2 周前的修订)。它声称 Schwartz-Ziv-Tishby 论文中的许多主张都站不住脚,或者至少在所主张的一般性上站不住脚。事实上,如果我没看错的话,他们声称可视化结果是激活函数选择的产物——根据理论,这应该无关紧要。

然而,在评论中,Schwartz-Ziv 和 Tishby 出现了对这篇批评论文的一长串评论,称批评没有抓住重点。批评性论文的作者反过来对此作出回应,但也许谈话还没有结束。

我有兴趣开始一个关于信息瓶颈的深度学习方面的研究项目,但担心我会浪费时间学习已经被“驳斥”的东西。因此,我的问题是:

目前专家对信息瓶颈原理在理解深度学习方面的适用性有何看法?

特别是,除了我所链接的内容和专家的评论(直接或间接)之外,我对该主题的研究感兴趣。

1个回答

我在这里要说的是,压缩保证更好的泛化下限的证明是被接受的,但如果这个下限实际上相关,它就不会被广泛接受。

例如,具有更好压缩的模型可能会将下限从 1.0 增加到 1.5,但如果所有模型都已经从 2.0-2.5 执行,则可能不相关。同样,我认为很明显,虽然压缩对于一定程度的泛化来说已经足够了,但显然没有必要(例如,可逆神经网络可以得到很好的泛化)。

可能正确的结论是理论和分析是一个有用的方向,但不清楚它是否说明了真实网络。