什么是在主成分分析 (PCA) 中命名选定成分或因子的良好、结构化和可重复的方法?显然,特征向量中条目的符号和大小是关键,但你如何从那里得到一个定性的、可靠的描述符或名称?
背景(除非对足球感兴趣,否则跳过):事实证明,您(意思是“我”)几乎无法通过对具有相关变量的数据降维的不稳定理解;努力通过线性代数来理解(在美好的一天)坐标的变化、数据云的旋转和其他神秘的概念,这在很大程度上要归功于针对祖母和其他家庭成员的巨大教学努力(这里) . 最后,R代码也到位(princompv prcomp),您可以在协方差矩阵的特征向量中选择主要因素或分量。你得到的输出summary,生成一个biplot然后你就完成了,希望更聪明的人能够克服biplot. 但你不能只打印biplot- 你在餐桌旁......
那么该怎么办?如何给PC1andPC2起有意义的名字?他们需要名字吗?它们应该有一个名字,因为仅仅通过相应特征向量中的组件似乎并不是一种很好的、有影响力的发表论文的方式。那么分配这些名称的准则或原则是什么?
这是一个有问题的孩子的足球迷的例子。你得到了《经济学人》,终于明白是什么让 tiki-taka 成为有史以来最好的足球。也就是说,如果你知道这ABCB意味着(通过观看比赛)球从布斯克茨传到哈维,从哈维传到伊涅斯塔,再从伊涅斯塔传回哈维。这很可能是梅西ABAC在A助攻进球之前寻找一堵墙。ABAB代表两个足球天才拥抱球,而防守者沮丧地放弃。所以现在(对不起棒球和足球迷)开场情节中的“主要成分1”很有意义。但是如果你不是巴萨球迷会发生什么......那么你就会受到“主成分1”的解释的摆布:“更倾向于播放ABAC和ABCB传递序列,以及ABAB“。而且因为它是经济学人,所以有一些进一步的解释。但仍然......这是我第一次听说 PCA,并且无法更快地了解Wikipedia. 难道不应该努力为这个组件或因素命名一些听起来像新元变量的东西——比如“来回传递”(我知道不是很好)?
同样的事情往往会发生在其他情况下,在这些情况下,在进行数学工作之后,将定性描述符或名称分配给 PC 并不令人信服。如果没有对主成分很好的定义(或理想情况下的名称),就很难理解它们的含义,以及它们是如何成为初始变量的加权线性组合的。
这是 2004 年不同型号汽车的 PCA 结束时的一个非常惊人的在线帖子中的情节(由于接下来的内容,我将暂缓记入它) - 基本上是关于技术规格、价格等的数据:

除了豪华的德国车型之外,购买任何汽车都很难,不是吗?