在全基因组关联研究(GWAS) 中:
- 主要成分是什么?
- 为什么使用它们?
- 它们是如何计算的?
- 可以在不使用 PCA 的情况下进行全基因组关联研究吗?
在全基因组关联研究(GWAS) 中:
在这种特殊情况下,PCA 主要用于解释 SNP(或其他 DNA 标记,尽管我只熟悉 SNP 案例)上等位基因分布的群体特异性变异。这种“种群亚结构”主要是由于遗传上遥远的祖先(例如日本人和黑人非洲人或欧洲美国人)中次要等位基因频率不同而产生的。Patterson 等人在Population Structure and Eigenanalysis中很好地解释了总体思路。(PLoS Genetics 2006, 2(12))或《柳叶刀》关于遗传流行病学的特刊(2005, 366;大多数文章都可以在网络上找到,从 Cordell & Clayton, Genetic Association Studies开始)。
主轴的构建遵循 PCA 的经典方法,该方法应用于观察到的基因型(AA、AB、BB 的比例矩阵(SNP 的个体);假设 B 在所有情况下都是次要等位基因),除了可能会应用额外的归一化来解释种群漂移。这一切都假设次要等位基因的频率(取 {0,1,2} 中的值)可以被视为数字,也就是说,我们在加法模型(也称为等位基因剂量)或任何有意义的等效模型下工作. 由于连续的正交 PC 将解释最大方差,这提供了一种突出显示在次要等位基因频率水平上不同的个体组的方法。用于此的软件称为Eigenstrat。它也可以在egscore()
GenABEL R 包中的函数(另见GenABEL.org)。值得注意的是,还提出了其他检测种群子结构的方法,特别是基于模型的聚类重建(参见最后的参考资料)。通过浏览Hapmap项目可以找到更多信息,以及来自Bioconductor项目的可用教程。(在 Google 上搜索 Vince J Carey 或 David Clayton 的精彩教程)。
除了聚类亚群之外,这种方法还可用于检测可能在两种情况下出现的异常值 (AFAIK):(a) 基因分型错误,以及 (b) 与同质人群一起工作时(或假设如此,给定自我报告的种族) ),个体表现出意想不到的基因型。在这种情况下,通常做的是以迭代的方式应用 PCA,并删除分数低于SD 在前 20 个主轴中的至少一个上;从某种意义上说,这相当于“变白”了样本。请注意,任何此类基因型距离测量(在使用多维缩放代替 PCA 时也适用)将允许发现亲属或兄弟姐妹。plink软件提供了其他方法,请参阅在线帮助中的人口分层部分。
考虑到特征分析可以揭示个体水平的某些结构,我们可以在尝试解释给定表型(或可能根据二元标准定义的任何分布,例如疾病或病例对照)中观察到的变化时使用此信息情况)。具体来说,我们可以使用这些 PC(即个体的因子得分)调整我们的分析,如Price 等人在全基因组关联研究中的主成分分析校正分层中所示。(Nature Genetics 2006, 38(8))和后来的工作(有一张很好的图片显示了欧洲的基因镜像地理中的欧洲遗传变异轴;Nature 2008; 图 1A 转载如下)。另请注意,另一种解决方案是进行分层分析(通过在 GLM 中包含种族)——例如,这在snpMatrix包中很容易获得。
参考