故事:
我的奶奶会走路,但不会爬。有些奶奶会。一位祖母以攀登乞力马扎罗山而闻名。
那座休眠火山很大。它在其基地上方 16,000 英尺处。(不要讨厌我的帝国单位。)有时它的顶部也有冰川。
如果你在没有冰川的年份攀登,并且你到达顶部,它是否与有冰川一样的顶部?海拔不一样。你必须走的路是不同的。如果冰川厚度较大的时候去山顶呢?这是否使它更具有成就感?每年约有 35,000 人尝试攀登它,但只有约 16,000 人成功。
应用:
所以我会向我奶奶解释权重的控制(也就是最小化模型复杂度),如下:
奶奶,无论您是否知道,您的大脑都是一个了不起的思想家。如果我问你认为自己登顶的 16,000 人中有多少人实际上做到了,你会说“全部”。
如果我将传感器放在所有 30,000 名登山者的鞋子上,并测量海拔高度,那么其中一些人的高度没有其他人那么高,并且可能没有资格。当我这样做时,我将使用一个恒定模型 - 我是说如果高度不等于测量的最大高度的某个百分位数,那么它不是顶部。有些人跳到顶部。有些人只是越线坐下。
我可以为传感器添加纬度和经度,并拟合一些更高阶的方程,也许我可以得到更好的拟合,并让更多的人参与进来,甚至可能正好是尝试它的总人数的 45%。
因此,假设明年是“大冰川”年或“无冰川”年,因为某些火山确实改变了地球的反照率。如果我把我今年的复杂而严格的模型应用到明年攀登的人身上,这个模型将会产生奇怪的结果。或许大家都会“过”,甚至高得过不去。也许根本没有人会通过,它会认为没有人真正完成了攀登。特别是当模型很复杂时,它往往不能很好地概括。它可能完全符合今年的“训练”数据,但是当新数据出现时,它的表现很差。
讨论:
当您限制模型的复杂性时,通常可以在没有过度拟合的情况下进行更好的泛化。使用更简单的模型,那些更能适应现实世界变化的模型,往往会产生更好的结果,其他一切都相同。
现在你有一个固定的网络拓扑,所以你说“我的参数计数是固定的”——我不能改变模型的复杂性。废话。测量权重中的熵。当熵较高时,这意味着某些系数比其他系数具有更多的“信息量”。如果您的熵非常低,则意味着通常这些系数具有相似的“信息量”水平。信息量大不一定是好事。在民主国家中,您希望所有人都平等,而乔治·奥威尔(George Orwell)之类的“比其他人更平等”是衡量制度失败的标准。如果您没有充分的理由,您希望权重彼此非常相似。
就个人而言:我更喜欢“信息标准”之类的东西,而不是使用巫术或启发式方法,因为它们使我能够获得可靠且一致的结果。 AIC、AICc和BIC是一些常见且有用的起点。重复分析以确定解决方案的稳定性或信息标准结果的范围是一种常见的方法。人们可能会考虑在权重的熵上设置一个上限。