我正在阅读这篇博文:https ://ruder.io/optimizing-gradient-descent/index.html 。在关于 AdaGrad 的部分中,它说:
它使学习率适应参数,对与频繁出现的特征相关的参数执行较小的更新(即低学习率),对与不经常出现的特征相关的参数执行较大的更新(即高学习率)。
但我不确定罕见特征的含义:给定特征的值是否很少变化?
我正在阅读这篇博文:https ://ruder.io/optimizing-gradient-descent/index.html 。在关于 AdaGrad 的部分中,它说:
它使学习率适应参数,对与频繁出现的特征相关的参数执行较小的更新(即低学习率),对与不经常出现的特征相关的参数执行较大的更新(即高学习率)。
但我不确定罕见特征的含义:给定特征的值是否很少变化?
我们将网络的输入描述为一个向量,称为特征向量。该向量的每个分量通常与一些“现实世界”信息相关,例如“人的年龄”、“原子数”、“……”。
在非常常见的情况下,输入向量的特定分量将具有接近而不是总是相同的值。这在二进制组件或具有一小组可能值的组件中更为常见。
但是,通常在此组件的值与最常见的值不同的情况下,此组件非常重要且信息丰富。
这种成分的这些值称为不频繁特征。
(例如:“下雨?”在我的城市 99.9% 的时间都是“假的”。但是,当它为真时,它是所有关于人口行为的问题的关键因素)。
这些特征的问题:由于不常见的值很少,网络很少有机会从中学习,一些学习算法可能无法给予它们必须的权重(考虑到,如前所述,这些组件是当它们采用与最常见值不同的值时非常重要)。
AdaGrad 等一些自适应学习率算法试图解决这个问题。