机器算法验证 - 为什么多重共线性对机器学习模型如此不利，我们能做些什么呢？ - 吾爱随笔录

为什么多重共线性对机器学习模型如此不利，我们能做些什么呢？

机器算法验证机器学习多重共线性正则化

2022-04-06 01:27:16

为什么多重共线性对机器学习模型如此不利？

有没有时候我们可以忽略多重共线性？

正则化（，）如何帮助我们处理多重共线性？ $L_1$ $L_2$

2个回答

多重共线性只是意味着数据集中的一个或多个特征对模型无用。因此，您会遇到与更多特征相关的所有问题（即维度灾难），但没有任何好处（例如，使类更容易分离）。

许多机器学习算法不受这种性质的问题的影响。在内部执行任何形式的特征选择并且适用于高维数据的算法（例如基于树的算法、套索）对多重共线性具有鲁棒性。

$L_1$ 正则化主要有助于模型，因为它提供了稀疏解决方案，对多重共线性具有鲁棒性。没有多大帮助。如果您对两者的差异感兴趣，请阅读本文。 $L_2$

最后一点，多重共线性在机器学习中并不像你想象的那么大。话虽如此，如果检测到这样的问题，执行某种特征选择或什至 PCA 来帮助对特征进行去相关几乎总是有益的。

最容易理解的方法是想象你有两个相同的特征，例如摄氏温度和华氏温度。这是一个完美共线性的例子。

会发生两件事，都是不好的。一是至少你会浪费一些神经元。在第一层中，您有输入，用于特征。其中两个特征本质上是相同的，但模型不知道它并为它们分配权重：，其中神经元在第一层。所以，你一开始就浪费了神经元。 $a^{[0]}_i$ $i=1,2,\dots,n$ $w_{ij}$ $z_j=\sum_ia^{[0]}_i w_{ij}$ $j=1,2,\dots,k^{[1]}$ $k^{[1]}$

第二件事是这会退化潜在的最优解。再次，考虑第一层的连接，如果第一个和第二个输入是共线的，那么有无限数量的组合将产生与该 sumproduct 相同的精确结果。这将使您的优化器感到困惑，并使其工作更加困难。 $a^{[0]}_1 w_{1j}+a^{[0]}_2 w_{2j}$

其它你可能感兴趣的问题

上一篇MCMC 联合可信区域抽签下一篇检查比例风险假设