标准差平均值的可靠性

机器算法验证 标准差 可靠性
2022-03-14 17:03:00

我有一个问题可能会表明我对统计数据的无知:)。我有一大套机器可以生产一定长度的铁条。对于每台机器,我都进行了实验并有一个长度列表。从这些我可以计算平均值和样本标准偏差。我并不真正关心他们的手段,我主要关注变化。因此,我基本上只记录每台机器的样本标准偏差。我认为每台机器的结果都服从正态分布。到目前为止,一切都很好 :)

我现在想将这些变化组合成一个数字。因此,我计算每个机器变化的二次平均值,我们称之为 X。在下一步中,我还想对围绕 X 的分布进行估计。这个数字叫什么,计算它的最佳方法是什么?我不确定它是否与标准偏差的置信区间有关,我不知道测量是否是独立的(设计错误会全部出现,结构可能只出现在某些情况下)。

例子。我将尝试用一个例子来澄清。假设我测量了 3 台机器,发现它们产生的长度为
M1:100 +/- 7
M2:120 +/- 8
M3:130 +/- 9
其中 +/- 后面的数字是观察到的样本标准偏差那台机器上的值。如前所述,我不关心手段,只关心传播,所以我定义 {X_1, X_2, X_3} = {7,8,9}。它们的二次平均值为 X = RMS(X_i) =194我认为 X 表示我的公园中机器的平均分布。

假设我会找到 {X_1, X_2, X_3} = {3,8,11}。他们的二次平均是一样的194,但它周围的散布显然更大。我对正确性的信心194因为一台机器的平均分布因此应该更低(例如,我想测试更多的机器)并且我想用一个数字来表达这一点。

问题对问题 的一些回答:它们不相同;如果某台机器确实行为不端,我可以直接从机器测试中看到它(即我会从大型 X_i 中看到它),但我不会检测到一个小的不当行为。此外,每台机器的样本量可能不同(我在旧机器上对新机器进行了更多测试)。

1个回答

如果您想测试几台机器的方差是否偏离其他方差,将它们组合成平均值对您没有帮助。问题是这些不同的差异会扭曲你的平均值。要测试是否存在不同的差异,您可以使用Bartlet's test它对正态性很敏感,但既然你说你的数据是正常的,这应该不是问题,尽管测试它是一个好主意。

现在,如果您可以假设所有机器在某种意义上都是相似的,它们可以具有不同的均值但具有相似的方差,那么问题就非常简单了。如果您假设机器是独立的,则将每台机器的方差视为随机样本。然后估计这个样本的均值和标准差。对于大量机器,正态近似值会起作用,因此使用标准差还是方差都无关紧要。在这两种情况下,样本均值将估计您选择的平均统计量,样本的标准差将估计您选择的统计量的平均分布。那么 95% 的置信区间将是μ±1.96σ.