命名 PCA 因素:这是一门小艺术吗?

机器算法验证 主成分分析 解释
2022-04-06 16:22:15

什么是在主成分分析 (PCA) 中命名选定成分或因子的良好、结构化和可重复的方法?显然,特征向量中条目的符号和大小是关键,但你如何从那里得到一个定性的、可靠的描述符或名称?


背景(除非对足球感兴趣,否则跳过):事实证明,您(意思是“我”)几乎无法通过对具有相关变量的数据降维的不稳定理解;努力通过线性代数来理解(在美好的一天)坐标的变化、数据云的旋转和其他神秘的概念,这在很大程度上要归功于针对祖母和其他家庭成员的巨大教学努力(这里) . 最后,R代码也到位(princompv prcomp),您可以在协方差矩阵的特征向量中选择主要因素或分量。你得到的输出summary,生成一个biplot然后你就完成了,希望更聪明的人能够克服biplot. 但你不能只打印biplot- 你在餐桌旁......

那么该怎么办?如何给PC1andPC2起有意义的名字?他们需要名字吗?它们应该有一个名字,因为仅仅通过相应特征向量中的组件似乎并不是一种很好的、​​有影响力的发表论文的方式。那么分配这些名称的准则或原则是什么?

是一个有问题的孩子的足球迷的例子。你得到了《经济学人》,终于明白是什么让 tiki-taka 成为有史以来最好的足球。也就是说,如果你知道这ABCB意味着(通过观看比赛)球从布斯克茨传到哈维,从哈维传到伊涅斯塔,再从伊涅斯塔传回哈维。这很可能是梅西ABACA助攻进球之前寻找一堵墙。ABAB代表两个足球天才拥抱球,而防守者沮丧地放弃。所以现在(对不起棒球和足球迷)开场情节中的“主要成分1”很有意义。但是如果你不是巴萨球迷会发生什么......那么你就会受到“主成分1”的解释的摆布:“更倾向于播放ABACABCB传递序列,以及ABAB“。而且因为它是经济学人,所以有一些进一步的解释。但仍然......这是我第一次听说 PCA,并且无法更快地了解Wikipedia. 难道不应该努力为这个组件或因素命名一些听起来像新元变量的东西——比如“来回传递”(我知道不是很好)?

同样的事情往往会发生在其他情况下,在这些情况下,在进行数学工作之后,将定性描述符或名称分配给 PC 并不令人信服。如果没有对主成分很好的定义(或理想情况下的名称),就很难理解它们的含义,以及它们是如何成为初始变量的加权线性组合的

这是 2004 年不同型号汽车的 PCA 结束时的一个非常惊人的在线帖子中的情节(由于接下来的内容,我将暂缓记入它) - 基本上是关于技术规格、价格等的数据:

在此处输入图像描述

除了豪华的德国车型之外,购买任何汽车都很难,不是吗?

1个回答

您专注于“命名”,但我想说真正的问题是理解主成分的含义。你是对的:这是一门艺术。结果往往证明它们很难解释,因此所有尝试(尤其是在因子分析文献和实践中)旋转组件/因子以实现“简单结构”,即更容易解释的结构(见我的回答在这里)。

我不知道你从哪里得到你的数据,但这个数据集在Cosma Shalizi 的 PCA 讲义中得到了很好的分析,我引用了第 7 页:

这个 [特征向量矩阵] 表示除了汽油里程之外的所有变量都对第一个分量有负投影。这意味着里程与其他一切之间存在负相关。第一个主要组成部分告诉我们,我们是要买一辆大型、昂贵、耗油量大、发动机强大的汽车,还是我们要买一辆小型、便宜、省油但发动机弱的汽车。

第二个组件更有趣一些。发动机尺寸和油耗几乎没有影响它。相反,我们在汽车的物理尺寸(正投影)与价格和马力之间进行对比。基本上,这条轴线将小型货车、卡车和 SUV(大,不那么贵,马力不大)与跑车(小,贵,马力大)分开。

一旦你了解了这一点,你就可以寻找好名​​字。