经常听到有人说“超过 70% 的可变性是由……解释的”,这究竟是什么意思?平方和 (SSE) 的比例,还是平方和 (MSE) 的平均值?例如在下面的方差分析表中:
Df Sum Sq Mean Sq F value Pr(>F)
as.factor(site) 444 8357 18.82 163.1 <2e-16 ***
as.factor(year) 12 569 47.43 410.9 <2e-16 ***
as.factor(month) 5 863 172.53 1494.8 <2e-16 ***
as.factor(year):as.factor(month) 60 769 12.82 111.1 <2e-16 ***
Residuals 34188 3946 0.12
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
7176 observations deleted due to missingness
我们可以说大部分的可变性是由 解释的site吗?我们看到该站点涵盖了大部分 SSE,但由于站点很多,因此站点的 MSE 几乎是表中最低的。
在实践中我将如何解释这一点?我想知道可变性在哪里,它是否主要在时间或空间上变化。实际上是site最大的可变性来源,还是一个month和year?我应该为此阅读 SSE 或 MSE 专栏吗?
PS:请注意我不是专业的统计学家,所以如果你要回答很多数学问题,那么请给傻瓜做一些简单的总结:-)