计算两个数的标准差有意义吗?

机器算法验证 标准差
2022-03-10 03:14:17

一个简单的问题。我从理论上知道,可以计算两个数字的标准偏差。我想知道这样做是否合理。我的目标是比较同一现象的两个任意时间序列数据,并将平均值和标准差绘制为每个时间点的误差线。我知道您可以通过采用 Pearson 相关性等来比较两个时间序列,但我想比较每个时间点的绝对值有多少一致。任何见解将不胜感激。

更新:谢谢你的回答。让我们忘记时间序列。这是不必要的并发症。我的问题更根本。我正在做一个生物学实验来测量一个生物学相关的量,比如我细胞中一种化学物质的浓度。理想情况下,我会对我的实验进行 3 或 5 次或一定数量的重复,以获得平均值和标准偏差的估计值。但由于时间限制、实验的复杂性和所涉及的成本,我只能做两次重复。现在,我最终得到了两个浓度估计值。当我取这两个量的平均值时,没有人质疑我。但是当我计算标准偏差时,人们会感到不舒服。我可以理解他们的担忧,但我想更深入地了解为什么在这种情况下采用标准偏差可以或不可以?如果不行,我有什么选择?

4个回答

评论的编译和扩展:

假设您的数据是正态分布的。

如果要形成双边误差条(或置信区间),例如在 95% 的水平,则需要基于具有 n-1 自由度的 Student t 分布,其中 n 是数据点的数量. 您建议有 2 个数据点,因此需要使用具有 1 个自由度的学生 t。

对于 n = 2 个数据点,95% 的 2 边误差线需要样本标准差的乘法因子 12.71,而不是基于正态的熟悉因子 1.96(学生 t自由程度)。n = 3 个数据点的相应乘法因子为 4.30。

对于双边 99% 误差线(置信区间),情况变得更加极端。

正如您所看到的,在任一置信水平上,如果您有 3 个数据点而不是 2 个数据点,则乘法因子会有很大的“节省”。并且使用 n-1 与 n 在样本标准差的分母。

  n  Confidence Level  Multiplicative Factor
  2       0.95              12.71
  3       0.95               4.30
  4       0.95               3.18
  5       0.95               2.78
 infinity 0.95               1.96

  2       0.99              63.66
  3       0.99               9.92
  4       0.99               5.84
  5       0.99               4.60
 infinity 0.99               2.58

撇开您对时间序列上下文的初步解释,将其视为观察两个数据点的简单案例可能会很有用。对于任意两个观察值x1,x2样本标准差为s=|x2x1|/2. 该统计数据与给出两个值的样本范围一样提供信息(因为它只是该统计数据的标量倍数)。使用这个统计数据作为基础分布的标准差的信息本身并没有错,但显然这个统计数据有很大的可变性。

样本标准差的抽样分布取决于可观察值的基本分布。在特殊情况下X1,X2IID N(μ,σ2)是您拥有的正常值Sσχ1这是一个缩放的半正态分布。显然,这意味着您的样本标准差对标准差参数的估计很差(有偏且方差很大),但在数据如此之少的情况下,这是可以预料的。

如果您只有 2 个值,只需显示这 2 个值。如果您的听众要争论一个或另一个的重要性,那么将 2 个测量值转换为 2 个其他量(平均值和标准差)是没有意义的。

如果您想估计不确定性,这些其他响应是正确的,但不要忘记添加其他潜在的误差源(测量仪器偏差误差、分辨率等)。

“我知道您可以通过采用 Pearson 相关性等来比较两个时间序列”——这是不正确的。Pearson Correlation 假设观察结果是独立的,但时间序列数据本质上不是独立的。您实际上需要使用互相关。参考:https ://onlinecourses.science.psu.edu/stat510/node/74

此外,您不应使用典型方差(如果您确实必须计算方差);我建议使用平均绝对偏差(MAD)之类的东西。然后,您可以创建一个直方图来总结相似性/不相似性的分布。