PCA 是否适合可视化遗传数据中的集群

机器算法验证 数据可视化 聚类 主成分分析 遗传学 降维
2022-03-24 20:17:24

我经常看到 PCA 在基因研究中应用不当。我想澄清一下:什么时候适合在分析中使用 PCA 作为可视化工具?

一些例子:

1) 很少报告组件的百分比方差。对于人类数据,根据我的经验,前三个分量(经常被绘制)往往包含非常少的方差百分比。当前三个组件累计仅占(例如)10% 的方差时,您的视觉结果(即聚类)有多大意义?

2)一旦您主动执行了特征选择,比如说简单的 t 检验,并且您已经将大数据集缩小为一小部分特征,您是否应该执行 PCA 来可视化集群?我听说它争辩说,由于您如此积极地进行特征选择,因此 PCA 聚类实际上并不真正相关。真的吗?

3) 如果您要执行 PCA,需要报告哪些重要参数?我希望每个组件涵盖的 %Variance,但还有其他内容吗?

3个回答

我确实与您一样关注通过 PCA对集群进行可视化渲染的问题。如果第一个 2 或 3 个主成分仅占多维变异性的一小部分,则它们可能会错过集群区分的大部分方向。此外,即使组件很坚固,它们也可能会失效:只需考虑两个二维的长方形平行簇,它们沿它们的长度被一条狭缝隔开。第 1 台 pc 也将沿着它们的长度放置,并且不会显示集群的存在。

您的第二个问题意味着您现在提前知道您的集群(因为您提到使用 t 检验或类似的比较方法)。如果您成功地选择了最能区分它们的特征(维度),那么对这些选择的特征使用 PCA 可能会变得毫无意义——如果这些特征不相关,或者可能变得有价值——如果它们全部或其中一些非常相关.

如果您说的是 PCA 而不是严格意义上的因子分析,并且您既不旋转也不解释提取的 PC,那么对我来说,%Variance 是唯一需要报告的重要统计数据。您还可以显示碎石图。

由于您的数据可能非常嘈杂,您可以尝试使用它的稳健变体来提高 PCA 性能,有关详细信息,请参阅Wikipedia

但总的来说,我确实同意你的担忧。因为在遗传数据等复杂数据集中,不同的聚类可能会表现出不同的相关性,而这些相关性无法用全局PCA 充分表示。

使用 PCA 进行降维(例如到 2D 或 3D 进行可视化)的质量在很大程度上取决于捕获的方差量。但是你不能通过直系亲属的股份。如果我们有 1000 个维度,前两个解释这可能(我没有测试过)非常重要。在 10 维中,它完全没有意义,对于统一的 iid 数据,第一个单个特征向量必然已经解释得比这更多。更好的控制是值10%

explained varianceexpected explained variance

就在几天前,我在这里发布了一个关于特征值的预期分布的问题。如果我们找到一些分布,我们可以测试结果是否显着:

iid(均匀或正态)数据的特征值估计分布

(差异为 20 倍!)并不罕见,至少在样本很小的情况下是这样。因此,在指示投影是否真的捕捉到某些东西时,特征值似乎相当不可靠。0.1190.006

特征选择不包括旋转。什么时候 PCA 变得有趣了:它实际上是对数据进行了很大的旋转,还是只是选择了一些特征(即一个轴和一个特征向量之间的低角度)?尝试在可视化中绘制原始属性的轴,以显示与原始数据的关系以及 PCA 使用的属性。

一种理论。对人类而言,群体内(即同一种族)的变异比例约占个体遗传变异的85%。相反,种群内的变异(即大陆尺度)仅占个体遗传变异的约 15%。

尽管前三个分量(即 PC1、PC2、PC3)仅包含总方差的一小部分,但大多数情况下相关特征值的大小可以是更高分量的 50 到 70 倍。换句话说,前三个成分在单独比较时可以解释比任何其他成分更多(50x-70x)的方差。

虽然有时这些更高的成分确实解释了群体内隐藏的子结构,但请记住,来自同一群体的个体之间存在约 85% 的遗传变异。因此,大多数高级组件可能只是在组变化中解释这一点。对于遗传簇的分析,遗传学家对此并不感兴趣。因此,这些较高的分量可以被视为背景噪声。遗传学家主要对种群内的变异感兴趣,这些变异通常非常古老且高度分离。因此,当人口集群在前三个组成部分中形成时,可以说它们的形成主要是由于人口内部的变化。

总结:前三个成分累积的低方差 (<10%) 可以通过以下事实来证明:群体内的变异仅为个体内遗传变异的约 15%。