问题:我如何构建一个测试来确定在中南部山区观察到的“山”等位基因频率(图 1)是否显着低于生态选择模型(详见下文)的预测(图 2 )?
问题:我最初的想法是将模型残差与纬度:经度和高度进行回归(这仅导致纬度和经度之间的交互作用显着)。问题是残差(图 3)可能反映模型未解释的变异和/或它们是生物发生的事情,例如等位基因没有时间向南传播到其潜力或基因流动存在一些障碍。如果将观察到的(图 1)与预期的(图 2)山地等位基因频率进行比较,则会发现明显的差异,尤其是在瑞典和挪威的中部和南部山区。我承认该模型可能无法解释所有的变异,但我能否提出一个合理的测试来探索山区等位基因在中部到南部山区尚未达到其潜力的想法?
背景:我有一个双等位基因 AFLP 标记,其频率分布似乎与斯堪的纳维亚半岛上的山区(和纬度:经度)与低地栖息地有关(图 1)。“山”等位基因几乎固定在多山的北部。对于没有山脉的南部的“低地”等位基因,它几乎不存在或固定。当一个人在山区从北向南移动时,“山”等位基因的出现频率较低。这种从北到南的“山”等位基因频率的差异可能仅仅是由于系统地理学或历史过程,因为该地区是从北部和南部殖民的。例如,如果山区等位基因起源于北方人群,也许它还没有时间完全扩展到南方人群,
我的工作假设是“山”等位基因频率是生态选择的结果(零假设是中性选择)。
对于我的生态选择模型,我使用了一个广义加性模型 (GAM),其中二项式等位基因频率作为响应变量(在芬兰斯堪的纳维亚半岛采样了 129 个站点,每个站点通常采样 10 到 20 个人)和几个气候和生长季节变量作为预测变量。模型结果如下(TMAX04-06 = 4-6 月最高温度,Phen_NPPMN = 平均生长季节植被生产力,PET_HE_YR = 年潜在蒸散量,Dist_Coast = 到海岸的距离):
Family: binomial
Link function: logit
Formula: Binomial_WW1 ~ s(TMAX_04) + s(TMAX_05) + s(TMAX_06) + s(Phen_NPPMN) +
s(PET_HE_YR) + s(Dist_Coast)
Parametric coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.74372 0.04736 -15.7 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df Chi.sq p-value
s(TMAX_04) 3.8100 4.812 25.729 9.43e-05 ***
s(TMAX_05) 0.8601 1.000 5.887 0.01526 *
s(TMAX_06) 0.8862 1.000 7.644 0.00569 **
s(Phen_NPPMN) 6.2177 7.375 39.028 3.16e-06 ***
s(PET_HE_YR) 3.1882 4.147 18.039 0.00145 **
s(Dist_Coast) 2.2882 2.857 9.725 0.01906 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.909 Deviance explained = 89.7%
REML score = 326.73 Scale est. = 1 n = 129
图 1. 观察到的双等位基因 AFLP 标记的“山”等位基因频率。等高线 0.1 频率间隔,颜色阴影是高度,蓝色为最低,红色为最高。
图 2. 双等位基因 AFLP 标记的预测“山”等位基因频率。等高线 0.1 频率间隔,颜色阴影是高度,蓝色为最低,红色为最高。
图 3. 生态选择模型(使用 GAM)残差按整个研究区域(芬诺斯堪的纳维亚半岛)细分,分别针对挪威、瑞典和芬兰。红色虚线表示从其他 AFLP 标记推断的北部和南部种群之间的次要接触区,以及在非洲单独越冬地生长的羽毛的稳定同位素分析。细黑色虚线是该区域的中心。