机器算法验证 - “解释的可变性比例”究竟是什么？ - 吾爱随笔录

经常听到有人说“超过 70% 的可变性是由……解释的”，这究竟是什么意思？平方和 (SSE) 的比例，还是平方和 (MSE) 的平均值？例如在下面的方差分析表中：

                                    Df Sum Sq Mean Sq F value Pr(>F)    
as.factor(site)                    444   8357   18.82   163.1 <2e-16 ***
as.factor(year)                     12    569   47.43   410.9 <2e-16 ***
as.factor(month)                     5    863  172.53  1494.8 <2e-16 ***
as.factor(year):as.factor(month)    60    769   12.82   111.1 <2e-16 ***
Residuals                        34188   3946    0.12                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
7176 observations deleted due to missingness

我们可以说大部分的可变性是由解释的site吗？我们看到该站点涵盖了大部分 SSE，但由于站点很多，因此站点的 MSE 几乎是表中最低的。

在实践中我将如何解释这一点？我想知道可变性在哪里，它是否主要在时间或空间上变化。实际上是site最大的可变性来源，还是一个month和year？我应该为此阅读 SSE 或 MSE 专栏吗？

PS：请注意我不是专业的统计学家，所以如果你要回答很多数学问题，那么请给傻瓜做一些简单的总结:-)