数据挖掘 - 如何使用 pca 结果进行线性回归 - 吾爱随笔录

如何使用 pca 结果进行线性回归

数据挖掘线性回归降维主成分分析

2022-02-26 08:17:55

我有一个包含 11 个变量的数据集，每个变量都有观察值。我想对观察到的变量进行线性回归 $\vec{y}=\alpha +\beta*\vec{X}$ 当 X 是矩阵时。我试图减少我的参数，所以我在 X 上激活 pca 算法。我得到“加载”数据，但我不明白如何使用它来估计只有四个（例如）变量而不是 11 个。

有人可以帮忙吗？

2个回答

一般来说，我建议使用正则化技术来减少线性回归案例中数据集的维数。请参考L1 正则化。

如果您想使用 PCA 减少变量的数量，您应该查看描述主成分变化的 lambda 值，然后选择对应 lambda 值最大的几个成分（例如前四个）。

笔记：

如有必要，请进行缩放。
有时第一个组件不是很相关，可以删除。

欢迎来到本站！

因此，您从 PCA 获得的结果可以解释大部分原始数据集。您需要根据您的业务理解来命名它们（假设您了解数据，正如您提到的要应用的线性回归），否则您可能需要一些主题专家的专业知识。

当然，Features 不会与原始数据相同，否则执行 PCA 有什么意义（我知道您了解这部分）。要确定特征的数量，您需要查看 Scree Plot。

PCA 是一种降维算法，可帮助您在现有特征的基础上推导出新特征。PCA 是一种无监督学习方法，当它具有许多特征时使用，当您对数据一无所知时，没有数据字典等。为了更好地理解 PCA，您可以通过此链接1链接 2。

现在在执行线性回归之前，您需要通过应用预测变量重要性测试（PI 测试）检查这些新特征是否解释了目标变量，您可以通过python中的特征选择测试R。

根据 PI 测试的结果，您可以继续使用这些重要特征进行建模并丢弃不能很好地解释目标变量的特征。

最后，您可以获得您想要的结果。

如果你被困在某个地方，请告诉我。

其它你可能感兴趣的问题

上一篇如何在 SVM 中为多类分类构建数据和模型？下一篇如何处理标签不可靠的数据集