我有一个问题可能会表明我对统计数据的无知:)。我有一大套机器可以生产一定长度的铁条。对于每台机器,我都进行了实验并有一个长度列表。从这些我可以计算平均值和样本标准偏差。我并不真正关心他们的手段,我主要关注变化。因此,我基本上只记录每台机器的样本标准偏差。我认为每台机器的结果都服从正态分布。到目前为止,一切都很好 :)
我现在想将这些变化组合成一个数字。因此,我计算每个机器变化的二次平均值,我们称之为 X。在下一步中,我还想对围绕 X 的分布进行估计。这个数字叫什么,计算它的最佳方法是什么?我不确定它是否与标准偏差的置信区间有关,我不知道测量是否是独立的(设计错误会全部出现,结构可能只出现在某些情况下)。
例子。我将尝试用一个例子来澄清。假设我测量了 3 台机器,发现它们产生的长度为
M1:100 +/- 7
M2:120 +/- 8
M3:130 +/- 9
其中 +/- 后面的数字是观察到的样本标准偏差那台机器上的值。如前所述,我不关心手段,只关心传播,所以我定义 {X_1, X_2, X_3} = {7,8,9}。它们的二次平均值为 X = RMS(X_i) =我认为 X 表示我的公园中机器的平均分布。
假设我会找到 {X_1, X_2, X_3} = {3,8,11}。他们的二次平均是一样的,但它周围的散布显然更大。我对正确性的信心因为一台机器的平均分布因此应该更低(例如,我想测试更多的机器)并且我想用一个数字来表达这一点。
问题对问题 的一些回答:它们不相同;如果某台机器确实行为不端,我可以直接从机器测试中看到它(即我会从大型 X_i 中看到它),但我不会检测到一个小的不当行为。此外,每台机器的样本量可能不同(我在旧机器上对新机器进行了更多测试)。