四分位距的解释是什么?

机器算法验证 描述性统计
2022-03-09 05:29:01

我每天测量二氧化氮一年(365 天),四分位距(IQR) 为每立方米 24 微克。在这种情况下,“24”是什么意思,除了 IQR 的定义是25th 和 75th 百分位数之间的差异?例如,你会如何向记者解释这个数字?

谢谢

4个回答

根据定义,这定义了包含所有测量值的 75-25=50% 的范围。

:(中位数-24/2,中位数+24/2)。中位数应该写在这个 IQR 附近的某个地方。
上面当然是假的,写这个的时候我好像还在睡觉;很抱歉造成混乱。确实,IQR 是包含 50% 数据的范围的宽度,但它并不以中位数为中心——需要同时知道 Q1 和 Q3 才能定位该范围。

一般来说,IQR 可以看作是等效于标准偏差的非参数(=当我们不假设分布是高斯分布时)——两者都测量数据的传播。(等效不等于,对于 SD,(mean- ,mean+ ) 拥有 68.2% 的完美正态分布数据)。σσ

编辑:例如,这就是它在普通数据上的样子;红线显示,箱线图上方框显示的范围显示 IQR,直方图显示数据本身: 您可以看到两者都显示传播得很好;范围包含 68.3% 的数据(如预期的那样)。现在对于非正常数据 ,SD 分布由于长而不对称的尾部而扩大,拥有 90.5% 的数据!(根据定义,IQR 在这两种情况下都占 50%)±1σ替代文字
±1σ
替代文字
±1σ

这是一个简单的问题,要求一个简单的答案。 这是一个陈述列表,从最基本的开始,然后是更精确的限定条件。

IQR 是数据中半部分的传播。

在不对数据的分布方式做出假设的情况下,IQR 量化了单个值通常变化的量。

IQR 与众所周知的“标准差”(SD)有关:当数据遵循“钟形曲线”时,IQR 比 SD 大约高 35%。(等效地,SD 约为 IQR 的四分之三。)

根据经验,偏离中间值超过 IQR 两倍的数据值值得单独关注。它们被称为“异常值”。偏离中间值超过 IQR 3.5 倍的数据值通常会被仔细检查。它们有时被称为“远异常值”。

四分位距是一个区间,而不是一个标量。您应该始终报告这两个数字,而不仅仅是它们之间的差异。然后,您可以通过说一半的样本读数在这两个值之间进行解释,四分之一小于下四分位数,四分之一高于上四分位数。

粗略地说,我会对记者说,我可以宣布每日二氧化氮水平,在丢弃最高值和最低值之后,可以肯定的是,在当年的半天中的每一天,观测值都是与声明水平的距离不超过 IQR/2。

例如,如果你的第一个四分位数和第三个四分位数分别是 100 和 124,你可以说每日水平是 112(100 和 124 的平均值),并向你的对话者保证,在一半的日子里你犯的错误不大于 12 .