我有一个具有以下特征的数据集,但我似乎无法理解它。“三个 st.dev.s 包含 99.7% 的数据”是我告诉自己的,但这似乎是不准确的措辞。
Observations: 2246
Mean: 39
St.dev.: 3
Min: 34
Max: 46
Mean - 3*sd: 30
Mean + 3*sd: 48
这告诉我 99.7% 的数据位于 30 和 48 之间,但 100% 的数据位于 34 和 46 之间,这是没有意义的。这是否只是意味着我的样本不代表总人口?我的意思是,显然不是,但假设我不知道 34 岁以下和 46 岁以上的人类存在。顺便说一句,这是来自ageStata 样本数据集的变量nlsw88.dta。
我看过这个问题,但它也不能帮助我解开我的大脑结。问的地方。
编辑:刚刚意识到这些问题很多。请考虑标题问题是需要答案的问题。其余的几乎只是我混乱的思维过程展开。

