数据挖掘 - 梯度下降的重复特征 - 吾爱随笔录

梯度下降的重复特征

数据挖掘梯度下降

2021-09-26 14:12:58

假设我们的数据矩阵 X 有一个重复的列，即有一个重复的特征并且矩阵不是满列秩。会发生什么？

我想我们找不到唯一的解决方案，因为线性回归中的紧密形式就是这种情况，但我不知道如何直观地表明这一点，或者即使它是真的还是假的。

2个回答

在 Lecun 和其他人 ( http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf ) 的“高效反向传播”中，他们解释了为什么相关变量不好（第 4.3 节规范化输入）。

重复数据是线性相关的特例，是相关的特例。假设您有重复的变量 $X1 = X2$ ，因此网络输出在权重线上是恒定的 $w_2 = c - w_1$ ，其中 c 是一个常数。这意味着沿着这些线的误差梯度为 0：沿着这些线移动对学习没有影响。从这个意义上说，解决方案不会是唯一的。

这很糟糕，因为您可能正在解决较小维度的问题。删除其中一个输入将为您留下一个较小维度的网络。

除了维度问题，对于简单的学习者，我认为它不会对学习过程产生太大影响。对于更复杂的学习过程（学习率取决于时间/变量），它可能会变得更复杂。

当您复制一个特征时，您可能必须降低学习率以避免振荡或发散，即使对于像线性回归这样的简单模型也是如此。如果我们有一个作为 X 的一维输入并在那里复制特征，那么梯度将是其他情况下的两倍，如果我们的学习率为 0.05，那么新的步长可能足够大防止梯度下降收敛。

即使梯度下降不发散，训练也会变慢。请参阅https://towardsdatascience.com/feature-selection-why-how-explained-part-1-c2f638d24cdb或 Winks 的回答（https://stats.stackexchange.com/a/191364/267884）：

当每次迭代的梯度方向指向最佳点时，梯度下降的效果“最好”；也就是说，您可以最小化每个 $\beta_i$ [模型学习的权重] 分别得到一个好的答案。当要优化的函数是严格凸的时，这是可能的。但是当输入高度相关时，情况就不再如此了。显然，神经网络不可能，因为函数一开始就不是凸的，但它也会影响达到局部最小值。

其它你可能感兴趣的问题

上一篇AttributeError：模块“tensorflow.python.keras.utils”没有属性“to_categorical” 下一篇仅过采样/欠采样仅训练集或训练集和验证集