我有一些三角化的 3D 网格。三角形区域的统计数据为:
- 最小 0.000
- 最大 2341.141
- 平均值 56.317
- 标准开发 98.720
那么,当数字像上面那样计算时,这是否意味着标准偏差特别有用或暗示计算它存在错误?这些区域肯定远非正态分布。
正如有人在下面的回复中提到的那样,真正让我感到惊讶的是,平均数只需要一个标准差,数字就会变为负数,因此超出了法律范围。
谢谢
我有一些三角化的 3D 网格。三角形区域的统计数据为:
那么,当数字像上面那样计算时,这是否意味着标准偏差特别有用或暗示计算它存在错误?这些区域肯定远非正态分布。
正如有人在下面的回复中提到的那样,真正让我感到惊讶的是,平均数只需要一个标准差,数字就会变为负数,因此超出了法律范围。
谢谢
没有任何内容表明标准偏差必须小于或大于平均值。给定一组数据,您可以保持均值不变,但通过适当地添加/减去正数来将标准偏差更改为任意程度。
使用@whuber 对问题的评论中的示例数据集:{2, 2, 2, 202}。正如@whuber 所说:平均值为 52,标准差为 100。
现在,扰动数据的每个元素如下:{22,22,22,142}。平均值仍为 52,但标准差为 60。
当然,这些都是独立的参数。您可以在 R(或您可能喜欢的其他工具)中设置简单的探索。
R> set.seed(42) # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x) # and mean is near zero
[1] -0.0258244
R> sd(x) # sd is near one
[1] 1.00252
R> sd(x * 100) # scale to std.dev of 100
[1] 100.252
R>
同样,您可以通过减去平均值并除以标准差来标准化您正在查看的数据 。
编辑并遵循@whuber 的想法,这里有一个无限的数据集,它们接近您的四个测量值:
R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
min max sd mean
1 0 2341.14 97.9059 56.0898
R>
我不确定@Andy 为何对这个结果感到惊讶,但我知道他并不孤单。我也不确定数据的正态性与 sd 高于平均值这一事实有什么关系。在这种情况下,生成一个正态分布的数据集非常简单;实际上,标准正态的平均值为 0,sd 为 1。很难获得所有正值的正态分布数据集,且 sd > mean;确实,这应该是不可能的(但这取决于样本量和您使用的正态性检验……样本非常小,会发生奇怪的事情)
但是,一旦您像@Andy 所做的那样删除了正态性规定,即使对于所有正值,sd 也没有理由应该大于或小于平均值。一个异常值将执行此操作。例如
x <- runif(100, 1, 200) x <- c(x, 2000)
给出 113 的平均值和 198 的标准差(当然取决于种子)。
但一个更大的问题是为什么这会让人们感到惊讶。
我不教统计学,但我想知道统计学的教学方式如何使这个概念变得普遍。
只是添加一个通用点,从微积分的角度来看, 和 通过Jensen 不等式相关,假设两个积分都存在, 鉴于这种普遍的不等式,没有什么能阻止方差变得任意大。用自由度 X \sim \ mathfrak观察学生的 t 分布 并取其二阶矩与的二阶矩相同,