假设我们的数据矩阵 X 有一个重复的列,即有一个重复的特征并且矩阵不是满列秩。会发生什么?
我想我们找不到唯一的解决方案,因为线性回归中的紧密形式就是这种情况,但我不知道如何直观地表明这一点,或者即使它是真的还是假的。
假设我们的数据矩阵 X 有一个重复的列,即有一个重复的特征并且矩阵不是满列秩。会发生什么?
我想我们找不到唯一的解决方案,因为线性回归中的紧密形式就是这种情况,但我不知道如何直观地表明这一点,或者即使它是真的还是假的。
在 Lecun 和其他人 ( http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf ) 的“高效反向传播”中,他们解释了为什么相关变量不好(第 4.3 节规范化输入)。
重复数据是线性相关的特例,是相关的特例。假设您有重复的变量,因此网络输出在权重线上是恒定的,其中 c 是一个常数。这意味着沿着这些线的误差梯度为 0:沿着这些线移动对学习没有影响。从这个意义上说,解决方案不会是唯一的。
这很糟糕,因为您可能正在解决较小维度的问题。删除其中一个输入将为您留下一个较小维度的网络。
除了维度问题,对于简单的学习者,我认为它不会对学习过程产生太大影响。对于更复杂的学习过程(学习率取决于时间/变量),它可能会变得更复杂。
当您复制一个特征时,您可能必须降低学习率以避免振荡或发散,即使对于像线性回归这样的简单模型也是如此。如果我们有一个作为 X 的一维输入并在那里复制特征,那么梯度将是其他情况下的两倍,如果我们的学习率为 0.05,那么新的步长可能足够大防止梯度下降收敛。
即使梯度下降不发散,训练也会变慢。请参阅https://towardsdatascience.com/feature-selection-why-how-explained-part-1-c2f638d24cdb或 Winks 的回答(https://stats.stackexchange.com/a/191364/267884):
当每次迭代的梯度方向指向最佳点时,梯度下降的效果“最好”;也就是说,您可以最小化每个[模型学习的权重] 分别得到一个好的答案。当要优化的函数是严格凸的时,这是可能的。但是当输入高度相关时,情况就不再如此了。显然,神经网络不可能,因为函数一开始就不是凸的,但它也会影响达到局部最小值。