为什么高度相关意味着更高的方差?

机器算法验证 相关性 方差 直觉
2022-03-28 22:19:43

我正在阅读《统计学习简介》一书,在第 183 页,该书指出

由于许多高度相关量的平均值比许多不高度相关的量的平均值具有更高的方差,因此由 LOOCV 产生的测试误差估计值往往比由 k 倍 CV 产生的测试误差估计值具有更高的方差。

我找到了一个公式,上面写着

Var(𝑋+𝑌)=Var(𝑋)+Var(𝑌)+2Cov(𝑋,𝑌)

哪种解释了上述陈述,但我仍然很难直观地理解它。任何人都可以用外行的术语 ELI5 吗?

4个回答

假设你有一个普通的六面骰子。你对滚动两次后得到的两个数字的平均值感兴趣。

情景 1:您掷骰子两次,得到 {5} 和 {3}。他们的总数是 8 ,他们的平均值是4,而我们知道期望值是3.5我们再次滚动,我们得到 {2} 和 {5},它们的平均值是3.5我们非常接近真实的预期值。

场景 2:你掷骰子一次,然后掷骰子直到你得到一个与你的第一次掷骰子最多的数字。我掷出 {6},因此我只能得到 {5} 或 {6}。他们的平均值将是5.56在我再次掷出其中一个后,我得到了 {3}。第二卷是 {2},它们的平均值是2.5±

场景一中,骰子的两次滚动是独立且不相关的,因此它们可以自由地探索样本空间。场景 2中,这两个值高度相关,并且第二次滚动的样本空间受到限制,因此更容易更频繁地获得更极端的样本均值(如1.55.5 )。

我们还注意到,对于场景 1,您可以通过多种方式获得对应于真实均值的相同样本均值:{1} 和 {6}、{5} 和 {2}、{4} 和 {3}。而在场景 2中,只有 {3} 和 {4} 会为您提供真实的总体均值,因此,在后一种情况下,样本均值的可变性更大。

编辑负协方差:

现在考虑一个场景 3,它与场景 2类似,因为第二次滚动也受到限制,但在这种情况下,第二次滚动的规则有点棘手:如果我们的第一次滚动低于3.5(预期值) , 我们只接受距离第一个值至少 3 的滚动,如果它高于3.5 ,我们将只接受距离第一个值至少我们滚动一次,我们得到一个 {4},我们可以接受的唯一值将是一个 {1},给我们一个样本平均值2.5我们再次滚动,我们得到一个 {2},我们只剩下 {5} 和 {6} 作为第二次滚动的可能值。样本均值为3.5+4

我们可以看到,场景 2场景 3的样本空间都受到了限制,但是虽然第一个限制了空间,因此它更有可能获得极端样本均值(如 {1} 和 {2}),但后者限制了空间因此更不可能得到极端样本均值——不可能再得到 {1} 和 {2},也不可能得到 {1} 和 {3}。因此,可能的样本均值变化较小,更接近真实预期值。这是高协方差的影响,因此符号与解释原始陈述相关。

补充另一个答案的一个极端例子:制作N一份样品的准确副本给了我N完全相关的样本。显然,这不会减少使用样本做出的任何估计的方差。

我们可以用您的公式制作两份来证明这一点

Var(x¯)=Var(x+x2)=14[Var(x)+Var(x)+2Cov(x,x)]=Var(x)
结果可以通过制作看到(x+x)/2=x或者通过认识到Cov(x,x)=Var(x).

下图可能会提供直观的视图

无话可说

该图像还表明,高相关性并不总是意味着更高的方差,或者至少是模棱两可的(即左侧图像具有高相关性,结果是总和的方差低x+y)。

因为“高度相关”通常意味着 Cov(X,Y) 为 +ve 而“不相关”意味着 Cov(X,Y) 为零,因此使用您的表达式将“高度相关”与“不相关”进行比较,您将得到 Var(𝑋+ 𝑌) 在“高度相关”的情况下最高(Var(X) 和 Var(Y) 始终为正。