我正在寻找分析来自一项研究的数据,以前的类似研究使用 PCA 或分层线性回归来分析数据。我以前使用过 PCA 和线性回归。根据我的理解,PCA 将数据分解为主要成分,有助于了解哪些因素可能是我们因变量的强指标,并且线性回归可用于比较相关性。
我应该如何处理这个?如果我只是想找出与我的研究因变量最相关的因素,那么最好的选择是什么?我可以同时使用 PCA 和分层线性回归吗?
我正在寻找分析来自一项研究的数据,以前的类似研究使用 PCA 或分层线性回归来分析数据。我以前使用过 PCA 和线性回归。根据我的理解,PCA 将数据分解为主要成分,有助于了解哪些因素可能是我们因变量的强指标,并且线性回归可用于比较相关性。
我应该如何处理这个?如果我只是想找出与我的研究因变量最相关的因素,那么最好的选择是什么?我可以同时使用 PCA 和分层线性回归吗?
PCA 不涉及因变量:所有变量都被同等对待。主要是降维方法。
因子分析也不涉及因变量,但它的目标有些不同:它是发现潜在因素。
有些人在以后的回归中使用组件或因子(或它们的子集)作为自变量。如果您有很多 IV,这可能会很有用:如果您想减少数量同时损失尽可能少的方差,那就是 PCA。如果您认为这些 IV 代表了某些因素,那就是 FA。
如果您认为有因素,那么最好使用FA;但是,如果您只是想减少变量的数量,则无法保证这些组件与 DV 有很好的相关性。另一种方法是偏最小二乘法。这确实包括DV。
这些技术不是排他的,它们可以是互补的。
PCA 是一种降维技术。数据集中的维度数对应于每个案例的观察数。例如,假设您的数据是调查数据,并且您管理了一份包含 100 项的问卷。完成问卷的每个人都由 100 维空间中的一个点表示。PCA 的目标是简化这个空间,使点的分布保持在更少的维度上。这种简化可以帮助您更优雅地描述数据,但它也可以揭示数据中的主要趋势。可以在这里找到对 PCA 的一个很好的解释:理解主成分分析、特征向量和特征值
分层线性回归用于确定一个预测变量(或一组预测变量)是否解释了结果变量中的方差超过了某个其他预测变量(或一组预测变量)。例如,您可能想知道锻炼 (IV1) 或吃得好 (IV2) 是否能更好地预测心血管健康 (DV)。分层线性回归可以帮助回答这个问题。
如果您的数据很复杂(即您有很多变量),您可以应用 PCA 来减少变量的数量/找到“潜在变量”。然后可以在分层线性回归中使用这些潜在变量。
祝你好运!
正如其他答案所说,PCA 和线性回归(通常)是不同的工具。
PCA 是一种无监督方法(只接受数据,没有因变量),而线性回归(通常)是一种监督学习方法。如果您有因变量,则监督方法将适合您的目标。
如果您试图找出数据中的哪些变量捕获了数据中的大部分变化,PCA 是一个有用的工具。
如果你只是在寻找变量之间的相关性,你可以简单地用相关系数来估计。它将告诉您两个变量之间相关性的强度。