我在某处读到,如果我们的特征过于相关,我们必须删除一个,因为这可能会使模型恶化。很明显,相关特征意味着它们带来了相同的信息,因此删除其中一个是合乎逻辑的。但我不明白为什么这会使模型恶化。
在监督学习中,为什么拥有相关特征是不好的?
相关特征通常不会改进模型(尽管它取决于问题的具体情况,例如变量的数量和相关程度),但它们会以不同的方式和不同的程度影响特定的模型:
对于线性模型(例如,线性回归或逻辑回归),多重共线性会产生变化很大且可能在数值上不稳定的解。
随机森林可以很好地检测不同特征之间的相互作用,但高度相关的特征会掩盖这些相互作用。
更一般地说,这可以看作是奥卡姆剃刀的一个特例。更简单的模型更可取,并且在某种意义上,具有较少特征的模型更简单。最小描述长度的概念使这一点更加精确。
(假设你在谈论监督学习)
相关特征不会总是使您的模型恶化,但它们也不会总是改善它。
删除相关特征的主要原因有以下三个:
- 让学习算法更快
由于维度的诅咒,较少的特征通常意味着在速度方面有很大的提高。
如果速度不是问题,也许不要立即删除这些功能(见下一点)
- 减少有害偏见
关键字有害。如果您有相关的特征,但它们也与目标相关,您希望保留它们。您可以将特征视为提示以做出良好的猜测,如果您有两个基本相同的提示,但它们是很好的提示,那么保留它们可能是明智之举。
像朴素贝叶斯这样的算法实际上直接受益于“正”相关特征。像随机森林这样的其他人可能会间接从中受益。
想象一下,有 3 个特征 A、B 和 C。A 和 B 与目标高度相关,并且彼此之间高度相关,而 C 则完全不相关。如果你从这 3 个特征中取样,你有 2/3 的机会得到一个“好”的特征,而如果你去掉 B,这个机会下降到 1/2
当然,如果相关的特征一开始就不是超级信息,那么算法可能不会受到太大影响。
故事的寓意是,由于速度的原因,删除这些功能可能是必要的,但请记住,您可能会在此过程中使您的算法变得更糟。此外,一些算法(如决策树)嵌入了特征选择。
解决这个问题的一个好方法是使用包装器方法进行特征选择。仅当冗余功能对性能没有直接贡献时,它才会删除它们。如果它们像在朴素贝叶斯中一样有用,它们将被保留。(尽管请记住包装方法很昂贵并且可能导致过度拟合)
- 模型的可解释性
如果您的模型需要可解释,您可能会被迫使其更简单。一定要记住奥卡姆剃刀。如果您的模型在功能较少的情况下没有“那么”糟糕,那么您可能应该使用较少的功能。
为什么多重共线性是一个潜在的问题?
回归分析的一个关键目标是隔离每个自变量和因变量之间的关系。回归系数的解释是,当所有其他自变量保持不变时,它表示自变量每变化 1 个单位的因变量的平均变化。最后一部分对于我们进一步讨论多重共线性至关重要。
这个想法是你可以改变一个自变量的值,而不是其他的。然而,当自变量相关时,它表明一个变量的变化与另一个变量的变化有关。相关性越强,改变一个变量而不改变另一个变量就越困难。模型很难独立地估计每个自变量和因变量之间的关系,因为自变量倾向于一致地变化。
多重共线性会导致什么问题?
多重共线性会导致以下两种基本类型的问题:
根据模型中的其他自变量,系数估计值可能会大幅波动。系数对模型中的微小变化非常敏感。- 多重共线性会降低估计系数的精度,从而削弱回归模型的统计能力。您可能无法信任 p 值来识别具有统计显着性的自变量。
想象一下,您拟合了一个回归模型,并且系数值甚至符号都会根据您包含在模型中的特定变量而发生巨大变化。当稍微不同的模型导致非常不同的结论时,这是一种令人不安的感觉。你不觉得你知道每个变量的实际效果!
现在,考虑到您不一定相信 p 值来选择要包含在模型中的自变量。如果您的许多 p 值在统计上不显着,则此问题使得指定正确的模型和证明模型的合理性都变得困难。
随着多重共线性的严重性增加,这些有问题的影响也会增加。然而,这些问题只影响那些相关的自变量。您可以拥有一个具有严重多重共线性的模型,但模型中的某些变量可能完全不受影响。
我必须修复多重共线性吗?
多重共线性使您的系数难以解释,并且降低了模型识别具有统计意义的自变量的能力。这些绝对是严重的问题。然而,好消息是您不必总是找到解决多重共线性的方法!
减少多重共线性的需要取决于它的严重性和回归模型的主要目标。请记住以下三点:
- 问题的严重性随着多重共线性程度的增加而增加。因此,如果您只有中度多重共线性,您可能不需要解决它。
- 多重共线性仅影响相关的特定自变量。因此,如果您特别感兴趣的自变量不存在多重共线性,您可能不需要解决它。假设您的模型包含感兴趣的实验变量和一些控制变量。如果控制变量存在高度多重共线性,但实验变量不存在,那么您可以毫无问题地解释实验变量。
- 多重共线性影响系数和 p 值,但不影响预测、预测精度和拟合优度统计量。如果您的主要目标是进行预测,并且您不需要了解每个自变量的作用,则不需要减少严重的多重共线性。(参考:“一些或所有预测变量之间相互关联的事实通常不会抑制我们获得良好拟合的能力,也不会影响对平均响应的推断或对新观察的预测。”——应用线性统计模型,p289,第 4 版。)
从在数据库中存储数据的角度来看,存储相关特征在某种程度上类似于存储冗余信息,这可能会导致存储浪费,也可能导致更新或编辑元组后数据不一致。
如果我们在模型中添加如此多的相关特征,我们可能会导致模型考虑不必要的特征,并且我们可能会遇到高维问题的诅咒,我想这就是构建模型恶化的原因。
在机器学习的上下文中,我们通常使用PCA
来减少输入模式的维度。这种方法考虑通过某种方式(使用)去除相关特征,SVD
并且是一种无监督方法。这样做是为了达到以下目的:
虽然这可能看起来不太好,但我看到有人使用删除相关特征来避免过度拟合,但我认为这不是一个好习惯。有关更多信息,我强烈建议您查看此处。
另一个原因是,在深度学习模型中,例如MLPs
添加相关特征,您只是添加了不必要的信息,从而为模型添加了更多计算和参数。