使用跨越负标度而变量本身不应该为负的标准差构建误差线是否很糟糕?

机器算法验证 正态分布 置信区间 标准差 描述性统计 错误
2022-01-31 10:03:33

我有一个关于误差线的问题。我知道用 1 个标准差 (SD) 构建的误差线 (EB) 与用 95% 置信区间 (CI) 构建的 EB 呈现出的总体情况不同。也就是说,带有 SD 的 EB 显示了变量实际值的散布(或分散),而带有 CI 的 EB 显示了实际平均值最有可能落入的范围。

我的数据包括一个变量,即一个人每年看医生的次数(计数)。平均访问次数为 3,SD 为 5,置信区间为 2.5 到 3.5。显示基于 SD 的 EB 是否本质上是错误的,因为它会扩展到负值(即 3-5 = -2)?它违反任何假设吗?

如果我绘制显示平均值 3 和基于 1 SD 的 EB 的条形图,则 EB 的范围为 0 到 8,我是否仍然可以声称约 68% 的值落在 0 到 8 之间,或者因为它是正确偏斜的并且假定较低的 EB 基本上达到负值,这不再成立吗?如果是这样,我如何解释截断负数的 0 到 8 ?

1个回答

不,在这种情况下,使用 SD 绘制误差线是没有意义的。

退后一步。为什么我们用 SD 绘制误差线?在您编写时,它是为了显示“大部分”数据所在的位置。如果您的数据来自正态分布,这是有道理的:68% 的数据将位于平均值的 SD误差条的平均值将为您提供一个包含 68% 的区间你的数据。±1±1

然而,看医生的次数是一个计数,所以它是离散的。而且不能是负数。因此,这不可能是正常的。对于高计数,您通常可以将计数视为正常,但对于 3 的平均值和 5 的 SD。使用基于 SD 的误差线是回答原始问题的错误方法,即显示“大部分”在哪里数据下降。

更好:通过计算(例如)观察值的 16% 和 84% 分位数,直接计算区间的顶端和底端。它们之间的范围将再次包含 68% 的数据,就像在正常情况下平均值 SD 附近的间隔一样。±1

或者,您可以拟合分布。的负二项分布一致(参见 R 的帮助页面- 有是 negbin 的许多不同参数化)。对于这样的分布,我们可以再次计算参数 16%/84% 分位数,结果给出了一个区间32523?qnbinom[0,6]

> qnbinom(pnorm(c(-1,1)),mu=3,size=3^2/(5^2-3))
[1] 0 6