这是一个老问题,但接受的答案实际上并不正确或不完整。用户想要计算 12 个月数据的标准偏差,其中已经计算了每个月的平均值和标准偏差。假设每个月的样本数量相同,那么就可以从每个月的数据中计算出一年中的样本均值和方差。为简单起见,假设我们有两组数据:
$X=\{x_1,....x_N\}$
$Y=\{y_1,....,y_N\}$
样本均值和样本方差的已知值$\mu_x$ , $\mu_y$ , $\sigma^2_x$ , $\sigma^2_y$。
现在我们要计算相同的估计
$Z=\{x_1,....,x_N, y_1,...,y_N\}$。
考虑$\mu_x$,$\sigma^2_x$计算为:
$\mu_x = \frac{\sum^N_{i=1} x_i}{N}$
$\sigma^2_x = \frac{\sum^N_{i=1} x^2_i}{N}-\mu^2_x$
为了估计整个集合的均值和方差,我们需要计算:
$\mu_z = \frac{\sum^N_{i=1} x_i +\sum^N_{i=1} y_i }{2N}= (\mu_x+\mu_y)/2$
这是在接受的答案中给出的。然而,对于差异,故事有所不同:
$\sigma^2_z = \frac{\sum^N_{i=1} x^2_i +\sum^N_{i=1} y^2_i }{2N}-\mu^2_z$
$\sigma^2_z = \frac{1 }{2}(\frac{\sum^N_{i=1} x^2_i}{N}-\mu^2_x + \frac{\sum^N_{i= 1} y^2_i}{N}-\mu^2_y )+\frac{1 }{2}(\mu^2_x+\mu^2_y) -(\frac{\mu_x+\mu_y}{2})^2 $
$\sigma^2_z = \frac{1 }{2}(\sigma^2_x+\sigma^2_y )+(\frac{\mu_x-\mu_y}{2})^2$
因此,如果您有每个子集的方差并且您想要整个集合的方差,那么您可以平均每个子集的方差(如果它们都具有相同的均值)。否则,您需要添加每个子集的均值方差。
假设上半年我们每天生产 1000 兆瓦时,而在下半年,我们每天生产 2000 兆瓦时。那么第一和第二半能量产生的均值和方差分别为 1000 和 2000,两半均值为 0。现在有两个不同的事情我们可能会感兴趣:
1-我们要计算全年能源生产的方差:然后通过平均两个方差,我们得出零,这是不正确的,因为全年每天的能源不是恒定的。在这种情况下,我们需要添加来自每个子集的所有均值的方差。从数学上讲,在这种情况下,感兴趣的随机变量是每天的能源产量。我们有子集的样本统计数据,我们希望计算更长时间内的样本统计数据。
2-我们要计算每年能源生产的方差:换句话说,我们感兴趣的是能源生产从一年到另一年有多少变化。在这种情况下,平均方差会导致正确答案为 0,因为我们每年平均生产 1500 兆瓦。从数学上讲,在这种情况下,感兴趣的随机变量是每天的平均能源产量,其中平均是在全年进行的。