我们可以说 50% 的数据将在 25-75% 之间吗?

机器算法验证 分位数 统计模型
2022-03-22 02:00:42

假设我们有以下数据框:

       TY_MAX
141  1.004622
142  1.004645
143  1.004660
144  1.004672
145  1.004773
146  1.004820
147  1.004814
148  1.004807
149  1.004773
150  1.004820
151  1.004814
152  1.004834
153  1.005117
154  1.005023
155  1.004928
156  1.004834
157  1.004827
158  1.005023
159  1.005248
160  1.005355

25th: 1.0031185409705132
50th: 1.004634349800723
75th: 1.0046683578907745
Calculated 50th: 1.003893449430644

我在这里有点困惑。如果我们得到第 75 个百分位,则 75% 的数据应该低于该百分位。如果我们可以达到第 25 个百分位,那么 25% 的数据应该低于第 25 个。现在我在想 50% 的数据应该在 25 到 50 之间。而且第 50 个百分位数给了我不同的价值。很公平,这意味着 50% 的数据应该低于这个值。但我的问题是我的方法是否正确?

编辑:我们也可以说 98% 的数据将在百分位的第 1-99 位之间吗?

2个回答

是的。

  • 75% 的数据低于第 75 个百分位。
  • 25% 的数据低于第 25 个百分位。
  • 因此,50% (=75%-25%) 的数据介于两者之间,即介于第 25 和第 75 个百分位数之间。
  • 完全类似,98% 的数据位于第 1 和第 99 个百分位数之间。
  • 数据的下半部分,同样是 50%,低于第 50 个百分位。

这些数字可能并不完全正确,尤其是在您的数据数量较少的情况下。另请注意,关于如何实际计算分位数和百分位数有不同的约定

理想情况下,是的。

百分位数通常根据正态分布进行解释(因为在计算任何类型的基本统计测量时,正态性通常是一个潜在的,有时是未说明的假设)。然而,分布不必是正常的。

根据这个网站...

标准正态分布也可用于计算百分位数例如,中位数是第 50 个百分位数,第一个四分位数是第 25 个百分位数,第三个四分位数是第 75 个百分位数。在某些情况下,可能需要计算其他百分位数,例如第 5 或第 95。下面的公式用于计算正态分布的百分位数:X=μ+Zσ

因此,如果我们假设正态性,我们可以轻松计算我们正在寻找的任何百分位数。然而,百分位数不需要分布假设,并且与计算它们的数据有关。这意味着百分位数可以为正态分布和非正态分布提供有意义的基准。当然,您也可以在概率解释中使用百分位数,这当然基于您当前拥有的测量值,这可能是真实基础分布的好坏指标。

根据这个网站...

直接解释:考虑第10(P10) 和第 90 (P90) 百分位数:“鉴于现有数据,我们知道土壤性质p<P1010% 的时间,并且,p<P9090% 的时间”。同样的陈述可以使用概率或比例来构建:“鉴于可用数据,土壤性质p在 {P10P9080% 的时间”。