2015 年,Tishby 和 Zaslavsky 发表了一篇著名的论文,声称所谓的信息瓶颈原理可以用来理解深度神经网络的某些行为。在最近(2017 年 4 月)的一篇论文中,Schwartz-Ziv 和 Tishby 扩展了这些主张,特别是对一些结果进行了可视化。
2017 年晚些时候,Saxe 等人发表了一篇批评论文。已发布在 OpenReview 网站上(最近有 2 周前的修订)。它声称 Schwartz-Ziv-Tishby 论文中的许多主张都站不住脚,或者至少在所主张的一般性上站不住脚。事实上,如果我没看错的话,他们声称可视化结果是激活函数选择的产物——根据理论,这应该无关紧要。
然而,在评论中,Schwartz-Ziv 和 Tishby 出现了对这篇批评论文的一长串评论,称批评没有抓住重点。批评性论文的作者反过来对此作出回应,但也许谈话还没有结束。
我有兴趣开始一个关于信息瓶颈的深度学习方面的研究项目,但担心我会浪费时间学习已经被“驳斥”的东西。因此,我的问题是:
目前专家对信息瓶颈原理在理解深度学习方面的适用性有何看法?
特别是,除了我所链接的内容和专家的评论(直接或间接)之外,我对该主题的研究感兴趣。