基本问题
当您进行 PCA(或任何降维)时,“维数”是多少?我一直认为你测量的东西(即变量)是维度的数量:例如,如果你测量一个盒子的长度、宽度、高度,那就是 3 个维度(3 个变量);如果你测量 200 个细胞中 10,000 个基因的丰度,那就是 10,000 个维度(不是 200 个维度)。
更具体的问题
关于图 1(下图),对维数的“正确”解释是什么(在 PCA 之前);是细胞数(200)还是基因数(10,000)?
注意:我认为可以使用细胞数或基因数作为维度数,有明显不同的解释。此外,还有一些关于交叉验证的 PCA 的其他很好的讨论;但是,我的问题有点不同:在 PCA 上观看此视频后,我真的希望能对我的困惑做出回应。这是我的困惑的简要解释。
叙述者试图在这个实验的背景下解释 PCA(下图 1):
该图来自单细胞 RNA-seq。每个细胞中约有 10,000 个转录基因。
每个点代表一个单细胞及其转录谱。一般的想法是具有相似转录的细胞应该聚集在一起。
正如我以为我理解 PCA 一样,在这个实验中,基因是“维度”,细胞是观察结果;即,如果有 10,000 个基因,则有 10,000 个维度。这种理解似乎与使用 Iris 数据集(下图 2)的不同示例(参见参考资料)相吻合;如您所见,维度数是测量的花朵特征数。
然而,在视频中,叙述者继续将维度数描述为实验测量基因丰度的细胞数(见下图 3 和图 4):
问:关于图 1 中“每个点代表一个细胞”的实验,维度数(PCA 之前)是细胞数还是基因数?
参考:
视频链接:https ://www.youtube.com/watch?v=_UVHneBUBW0
有关 Iris 数据的参考链接,请在谷歌上搜索“Sebastian Raschka 的 3 个简单步骤中的主成分分析”(我在此站点上没有足够的声誉,无法在此问题中包含更多链接)。