人工智能 - 我们所说的“不常见的特征”是什么意思？ - 吾爱随笔录

人工智能深度学习术语优化器

2021-10-31 06:32:11

我正在阅读这篇博文：https ://ruder.io/optimizing-gradient-descent/index.html 。在关于 AdaGrad 的部分中，它说：

它使学习率适应参数，对与频繁出现的特征相关的参数执行较小的更新（即低学习率），对与不经常出现的特征相关的参数执行较大的更新（即高学习率）。

但我不确定罕见特征的含义：给定特征的值是否很少变化？

1个回答

我们将网络的输入描述为一个向量，称为特征向量。该向量的每个分量通常与一些“现实世界”信息相关，例如“人的年龄”、“原子数”、“……”。

在非常常见的情况下，输入向量的特定分量将具有接近而不是总是相同的值。这在二进制组件或具有一小组可能值的组件中更为常见。

但是，通常在此组件的值与最常见的值不同的情况下，此组件非常重要且信息丰富。

这种成分的这些值称为不频繁特征。

（例如：“下雨？”在我的城市 99.9% 的时间都是“假的”。但是，当它为真时，它是所有关于人口行为的问题的关键因素）。

这些特征的问题：由于不常见的值很少，网络很少有机会从中学习，一些学习算法可能无法给予它们必须的权重（考虑到，如前所述，这些组件是当它们采用与最常见值不同的值时非常重要）。

AdaGrad 等一些自适应学习率算法试图解决这个问题。

其它你可能感兴趣的问题