生物学背景
随着时间的推移,一些植物物种倾向于复制它们的整个基因组,从而获得每个基因的额外拷贝。由于这种设置的不稳定性,这些基因中的许多随后被删除,基因组重新排列并稳定下来,准备再次复制。这些复制事件与物种形成和入侵事件有关,理论认为复制有助于植物更快地适应新环境。
羽扇豆属开花植物,以有史以来最快的物种形成事件之一入侵安第斯山脉,更重要的是,它的基因组中的重复拷贝似乎比最密切相关的属 Baptisia 还要多。
现在是数学问题:
羽扇豆属成员和巴蒂西亚属成员的基因组已被测序,提供了每个物种约 25,000 个基因的原始数据。通过查询已知功能的基因数据库,我现在对基因可能执行的功能有了“最佳猜测”——例如,Gene1298 可能与“果糖代谢、盐胁迫反应、冷胁迫反应”有关。我想知道,如果 Baptisia 和 Lupinus 之间发生了重复事件,基因丢失是否随机发生,或者执行特定功能的基因是否更有可能被保留或删除。
我有一个脚本,它将输出如下所示的表格。L * 是与功能相关的所有羽扇豆基因的计数。L 1+ 是与存在至少一个重复拷贝的功能相关的羽扇豆基因的计数。我可以让它产生 L 2+、L 3+ 等,尽管由于排序过程,L 1+ 比 L 2+ 可靠得多。
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
我想做的是测试,对于每个基因功能,在羽扇豆和巴蒂西亚中,是否有更多或更少的重复基因比纯粹偶然预期的要多,以及羽扇豆在观察到的比例上是否与巴蒂丝不同。
迄今为止我拥有的最好的东西
以前对不同物种的研究使用富集分析、Fisher 精确检验和多次抽样的 FDR 校正,对每一行进行应急测试。
对此进行改进会很好;我不确定这听起来是不是最好的方法。
Glen_b 建议使用 GLM 来分析数据;我在 JMP8 中玩过 GLM,这很有趣,但我承认我并没有真正理解它们。
也就是说,我现在正在尝试使用 R。
我用这个做什么?
这原本应该是我在大学里做的一个短期研究项目的一部分,但现在已经发展成为一个巨大的基因组注释项目。为什么?因为生物信息学很酷。能够获取一串 A、T、C 和 G 并用它来推断数百万年前发生的事件的信息是惊人的。
不用说,我不会尝试提交任何友好提供的答案作为我自己的工作。如果我在提交的作品中使用此处建议的方法,我很乐意在论文中包含一个致谢。