我想澄清一下主成分分析如何减轻维度诅咒问题。我特别感兴趣的是在我的建模中抑制过度拟合,或者更具体地说是参数计数。如果我使用所有 30 个特征,我将拥有一个包含 30 个参数的模型:这对于我的样本量来说太大了,几乎可以保证过拟合。有人告诉我,我宁愿用我的特征集的前 3 个主要组件来构建我的模型,因此只有一个 3 参数模型,并且显然可以缓解我的过度拟合问题。但是后来我为我的特征向量矩阵计算了 30x30 个元素,为我的模型计算了 3 个参数,我已经为数据拟合了 900+3 个参数。现在我已经从一个最大参数数为 30 的模型变成了一个有 903 个参数的模型。我是如何躲避维度诅咒的?这对我来说真的不明显。另一个问题是特征向量矩阵元素的高方差,我注意到特征数据的相对较小的变化会导致这些元素发生相当大的变化,有时甚至会改变符号。它们比我试图拟合的模型参数更不稳定。
PCA 作为维度诅咒的治疗方法
机器算法验证
机器学习
主成分分析
降维
过拟合
2022-03-19 00:09:09
2个回答
在某种程度上,PCA 不使用您尝试建模/预测的结果,即它是一种无监督技术。从这个角度来看,它的参数不是在你的监督模型中得到训练的参数。当然,使用 PCA 进行降维并不能保证为数据中可能存在的感兴趣的结果保留“信号”(例如,参见前面的问题进行讨论)。即,如果有大量的先验知识,最好根据主题专业知识选择最重要的变量。当然,PCA 还有其他技术/替代方案(例如,PCA 的各种变体、UMAP、t-SNE、在特征上训练去噪自动编码器等)。
但是,很多也可能取决于您的目标。您是否尝试解释模型系数(如果是,PCA 确实使这更难),您是否尝试创建一个旨在实现一定性能水平的预测模型(如果是,PCA 的可解释性可能不那么值得关注,但是使用太少的数据也可能是一个更大的问题),或者您是否正在尝试做其他事情?
但是后来我为我的特征向量矩阵计算了 30x30 个元素,为我的模型计算了 3 个参数,我已经为数据拟合了 900+3 个参数。
与特征相关的参数的可能解决方案非常有限。您实际上只拟合了 3 个参数。因为潜在的解 位于 3d 空间中。
其它你可能感兴趣的问题