当距离平均值三个标准差时,我落在最小值或最大值之外,这意味着什么?

机器算法验证 意思是 标准差
2022-04-13 04:26:56

我有一个具有以下特征的数据集,但我似乎无法理解它。“三个 st.dev.s 包含 99.7% 的数据”是我告诉自己的,但这似乎是不准确的措辞。

Observations: 2246
Mean: 39
St.dev.: 3
Min: 34
Max: 46
Mean - 3*sd: 30
Mean + 3*sd: 48

这告诉我 99.7% 的数据位于 30 和 48 之间,但 100% 的数据位于 34 和 46 之间,这是没有意义的。这是否只是意味着我的样本不代表总人口?我的意思是,显然不是,但假设我不知道 34 岁以下和 46 岁以上的人类存在。顺便说一句,这是来自ageStata 样本数据集的变量nlsw88.dta

我看过这个问题,但它也不能帮助我解开我的大脑结。问的地方。

编辑:刚刚意识到这些问题很多。请考虑标题问题是需要答案的问题。其余的几乎只是我混乱的思维过程展开。

3个回答

“三个 st.dev.s 包含 99.7% 的数据”

您需要在这样的声明中添加一些警告。

99.7% 是关于正态分布的事实——99.7% 的总体值将在总体均值的三个总体标准差范围内。

正常密度

在来自正态分布的大样本*中,通常情况大致如此——大约 99.7% 的数据将在样本均值的三个样本标准差内(如果您从正态分布中抽样,您的样本应该很大足以让这几乎是真实的——看起来有大约 73% 的机会得到0.9973±0.0010用那个大小的样本)。

* 假设随机抽样

但是您没有来自正态分布的样本。

如果不对分布形状进行一些限制,则平均值的 3 个标准差以内的实际比例可能会偏高或偏低。

标准化均匀密度 Example of a distribution with 100% of the distribution inside 2 sds of mean

在平均值的 3 个标准差内的分布比例可能低至 88.9%。您可能需要超过 18 个标准偏差才能获得 99.7%。另一方面,您可以在不到一个标准偏差的情况下获得超过 99.7%。所以 99.7% 的经验法则不一定有多大帮助,除非你把分布形状固定下来一点。

如果您稍微放宽您的期望(仅非常“大约” 99.7%),那么该规则有时是有用的,不需要正常,只要我们记住它并不总是在每种情况下都有效 - 即使是大约。

简短的回答是您的样本没有精确地遵循正态分布,因此建议您可能需要重新检查您的基本假设,特别是您可以应用为处理正态分布的总体而设计的工具的假设。

只需将您的问题反过来以获得启发。如果您的样本是正态分布的,那么平均而言,大约 2000 个样本大小会产生 6 个超出 30-48 范围的数据点。你的没有,这表明一个问题“对于你通过假设你的更广泛的人口遵循正态分布而做出的任何预测,这种偏离正常的意义是什么?”

因此,这个小异常的更广泛含义是,尽管您的样本可能与正态分布相差不远,但一些假设它确实代表更大的正态分布总体的预测可能存在固有缺陷,可能需要一些资格或进一步调查。然而,估计这种偏离正常值的可能性,以及由此产生的预测的隐含误差幅度和可靠性远远超出了我的能力水平,尽管幸运的是在这里的许多其他答案中进行了探索!

但是你显然有一个很好的习惯来全面检查你的结果,质疑你的结果的真正含义以及它们是否证明了你的原始假设。寻找数据中揭示的进一步异常,例如峰度和偏斜,看看它们揭示了哪些线索,或者可能认为其他分布更能代表您的人口。

“三个 st.dev.s (3σ2) 包括 99.7% 的数据”指的是高斯分布。对于一般分布,切比雪夫不等式对概率质量的数量设置了下限k的平均值。但是有上限吗?

与伯努利分布p= .5,σ是 0.5 。均值μ也是 0.5,这意味着 100% 的分布在1σ或者μ. 较小数量的标准差怎么办?

注意:为简单起见,以下是关于分布的论点μ=0. 它扩展到任意分布μ是相当微不足道的。

鉴于任何积极的εM,有一个分布,你有ε/2概率质量Mε/2概率质量>M. 那是,

p(|x|>M)=ε

在其他条件相同的情况下,如M, 然后σ. 然而,对于任何固定的正N, 一次M超过N, 内的概率质量N零总是1ε, 不管M. 因此,如果我们查看与零的相对距离(即标准偏差的数量,则该值为=|x|σ),然后作为M, 我们有n, 在哪里n是最大的整数,使得“1ε的概率在nσμ“ 是真的。

这表明对于任何正数εn, 有一些分布使得超过的概率nσ从零小于ε. 因此,例如,如果您希望 99.999% 的概率小于 0.000001σ从零开始,有一个满足这一点的分布。