我可以对数据缩减的重复措施进行 PCA 吗?

机器算法验证 重复测量 主成分分析 降维
2022-01-20 12:29:14

我在 2 种情况下分别对 87 只动物进行了 3 次试验(一些缺失数据;无缺失数据 = 64 只动物)。在一个上下文中,我有许多具体的衡量标准(进入的时间、返回避难所的次数等),所以我想开发 2 到 3 个描述该上下文中的行为的综合行为评分(称它们为C1C2C3)。我想要一个C1在所有 3 次试验和 87 只动物中都意味着相同的东西,这样我就可以进行回归来检查年龄、性别、谱系和个体动物对行为的影响。然后我想检查C1在特定年龄内的其他上下文中与行为分数的关系。(在 1 岁时,情境 1 中的活动是否强烈预测情境 2 中的活动?)

如果这不是重复测量,PCA 会很好地工作 - 对上下文的多个测量执行 PCA,然后使用 PC1、PC2 等来检查一个上下文中的 PC1 与 PC1(或 2 或3) 在其他情况下。问题是重复测量,它属于伪复制。我有一个审稿人断然说不,但我找不到任何明确的参考资料来说明这在进行数据缩减时是否有问题。

我的推理是这样的:重复测量不是问题,因为我在 PCA 中所做的相对于原始测量纯粹是描述性的。如果我通过法令宣布我正在使用时间进入竞技场作为我在上下文 1 中的“大胆”衡量标准,那么我将拥有一个上下文 1 的大胆衡量标准,该衡量标准在所有年龄段的所有个体中都具有可比性,并且没有人会睁一只眼闭一只眼。如果我通过法令声明我将使用 time-to-enter time-to-far-end,同样如此。因此,如果我纯粹出于还原目的使用 PCA,为什么不能是 PC1(可能是 enter finish0.5+ 0.50.28+ 0.63+ 0.02总时间...),这至少是由我的多项措施决定的,而不是我猜测进入的时间通常是一个信息丰富且具有代表性的特征?

(请注意,我对测量的基本结构感兴趣……我的问题是关于我们如何解释特定于上下文的行为。“如果我使用上下文 1 并得出结论,哈利与其他动物相比是活跃的,我明白了吗? Harry 活跃在上下文 2 中?如果他随着年龄的增长改变了我们在上下文 1 中的活动,他是否也改变了他的上下文 2 活动?)

我看过 PARAFAC,也看过 SEM,但我不相信这两种方法中的任何一种都更好或更适合我的样本量。有人可以称重吗?谢谢。

2个回答

您可以查看多因素分析这可以使用 FactoMineR 在 R 中实现。

更新:

详细地说,Leann 提议——不管很久以前——对具有重复测量的数据集进行 PCA。如果我正确理解了她的数据集的结构,对于给定的“背景”,她有一个动物x“特定度量”(进入的时间、返回庇护所的次数等)矩阵。对 64 只动物(没有遗漏观察的动物)中的每只动物进行了 3 次跟踪。假设她有 10 个“特定度量”,那么她将拥有三个关于动物行为的 64×10 矩阵(我们可以将这些矩阵称为X1X2X3)。要同时在三个矩阵上运行 PCA,她必须“行绑定”三个矩阵(例如PCA(rbind(X1,X2,X3)))。但这忽略了第一次和第 64 次观察是在同一只动物身上的事实。为了规避这个问题,她可以“列绑定”三个矩阵并通过多因素分析运行它们。MFA 是分析在不同时间点对同一个人或对象测量的多组变量的有用方法。她将能够以与 PCA 相同的方式从 MFA 中提取主要成分,但每只动物都有一个坐标。这些动物对象现在将被放置在由她的三个观察结果界定的多元妥协空间中。

她将能够使用 R 中的 FactoMineR 包执行分析。示例代码如下所示:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

此外,与其从 MFA 中提取前三个分量并对其进行多元回归,她可能会考虑将她的解释变量作为“补充表”直接投影到 MFA 上(参见 参考资料?FactoMineR)。另一种方法是从 MFA(例如dist1=vegdist(mfa1$ind$coord, "euc"))计算对象坐标的欧几里德距离矩阵,并将其通过 RDAdist1作为动物特定变量的函数(例如rda(dist1~age+sex+pedigree)使用 vegan 包)。

在分析重复测量时使用 PCA 是司空见惯的(例如,它用于分析销售数据、股票价格和汇率) 逻辑如您所言​​(即,理由是 PCA 是一种数据缩减工具而不是推理工具)。

一位非常优秀的统计学家发表的一篇文章是:Bradlow, ET (2002)。使用主成分分析探索关键特征的重复测量数据集。 ”营销研究杂志 19:167-179。