机器算法验证 - 在全基因组关联研究中，主要成分是什么？ - 吾爱随笔录

在全基因组关联研究中，主要成分是什么？

机器算法验证主成分分析遗传学瓜斯

2022-01-22 14:35:25

主要成分是什么？
为什么使用它们？
它们是如何计算的？
可以在不使用 PCA 的情况下进行全基因组关联研究吗？

1个回答

在这种特殊情况下，PCA 主要用于解释 SNP（或其他 DNA 标记，尽管我只熟悉 SNP 案例）上等位基因分布的群体特异性变异。这种“种群亚结构”主要是由于遗传上遥远的祖先（例如日本人和黑人非洲人或欧洲美国人）中次要等位基因频率不同而产生的。Patterson 等人在Population Structure and Eigenanalysis中很好地解释了总体思路。（PLoS Genetics 2006, 2(12)）或《柳叶刀》关于遗传流行病学的特刊（2005, 366；大多数文章都可以在网络上找到，从 Cordell & Clayton, Genetic Association Studies开始）。

主轴的构建遵循 PCA 的经典方法，该方法应用于观察到的基因型（AA、AB、BB 的比例矩阵（SNP 的个体）；假设 B 在所有情况下都是次要等位基因），除了可能会应用额外的归一化来解释种群漂移。这一切都假设次要等位基因的频率（取 {0,1,2} 中的值）可以被视为数字，也就是说，我们在加法模型（也称为等位基因剂量）或任何有意义的等效模型下工作. 由于连续的正交 PC 将解释最大方差，这提供了一种突出显示在次要等位基因频率水平上不同的个体组的方法。用于此的软件称为Eigenstrat。它也可以在egscore()GenABEL R 包中的函数（另见GenABEL.org）。值得注意的是，还提出了其他检测种群子结构的方法，特别是基于模型的聚类重建（参见最后的参考资料）。通过浏览Hapmap项目可以找到更多信息，以及来自Bioconductor项目的可用教程。（在 Google 上搜索 Vince J Carey 或 David Clayton 的精彩教程）。

除了聚类亚群之外，这种方法还可用于检测可能在两种情况下出现的异常值 (AFAIK)：(a) 基因分型错误，以及 (b) 与同质人群一起工作时（或假设如此，给定自我报告的种族） )，个体表现出意想不到的基因型。在这种情况下，通常做的是以迭代的方式应用 PCA，并删除分数低于 $\pm 6$ SD 在前 20 个主轴中的至少一个上；从某种意义上说，这相当于“变白”了样本。请注意，任何此类基因型距离测量（在使用多维缩放代替 PCA 时也适用）将允许发现亲属或兄弟姐妹。plink软件提供了其他方法，请参阅在线帮助中的人口分层部分。

考虑到特征分析可以揭示个体水平的某些结构，我们可以在尝试解释给定表型（或可能根据二元标准定义的任何分布，例如疾病或病例对照）中观察到的变化时使用此信息情况）。具体来说，我们可以使用这些 PC（即个体的因子得分）调整我们的分析，如Price 等人在全基因组关联研究中的主成分分析校正分层中所示。（Nature Genetics 2006, 38(8)）和后来的工作（有一张很好的图片显示了欧洲的基因镜像地理中的欧洲遗传变异轴；Nature 2008; 图 1A 转载如下）。另请注意，另一种解决方案是进行分层分析（通过在 GLM 中包含种族）——例如，这在snpMatrix包中很容易获得。

基因反映欧洲的地理

参考

Daniel Falush、Matthew Stephens 和 Jonathan K Pritchard（2003 年）。使用多位点基因型数据推断种群结构：连锁基因座和相关等位基因频率。遗传学，164（4）：1567-1587。
B 德夫林和 K 罗德 (1999)。关联研究的基因组控制。生物识别，55（4）：997–1004。
JK 普里查德、M 斯蒂芬斯和 P 唐纳利 (2000)。使用多位点基因型数据推断种群结构。遗传学，155（2）：945–959。
Gang Zheng、Boris Freidlin、Zhaohai Li 和 Joseph L Gastwirth（2005 年）。各种遗传模型下关联研究的基因组控制。 生物识别，61（1）：186-92。
Chao Tian、Peter K. Gregersen 和 Michael F. Seldin1 (2008)。考虑祖先：种群亚结构和全基因组关联研究。人类分子遗传学，17（R2）：R143-R150。
Kai Yu，全基因组关联研究中的种群亚结构和控制选择。
Alkes L. Price、Noah A. Zaitlen、David Reich 和 Nick Patterson（2010 年）。全基因组关联研究中种群分层的新方法
朝天，等。（2009 年）。欧洲人口遗传亚结构：进一步定义用于区分不同欧洲民族的祖先信息标记，分子医学，15（11-12）：371-383。

其它你可能感兴趣的问题

上一篇学生 t 测试是 Wald 测试吗？下一篇首先尝试的前五个分类器