0.25、0.5、0.75 个百分位数的近似平均值

机器算法验证 意思是 描述性统计 中位数
2022-03-30 11:12:54

如果我有中位数(0.5 个百分位数),以及 0.25 和 0.75 个百分位数,对均值的最佳猜测是什么?

如果 0.25 和 0.75 百分位数位于权重为 0.5(每边 0.25)的概率质量的中间,并且中位数的每边都有 0.5,

用以下方法近似平均值是否有意义:

(`.25 pctile` + 2*`median` + `.75 pctile`) / 4

在这种情况下,我没有更多的粒度我想避免像这里那样在某些参数意义上拟合分布

2个回答

如果不强加某种假设,我们几乎可以说什么。

人口的意思可能是任何东西——实线上的任何值......或者可能是无限的,或者未定义的。

如果基础分布是对称的和单峰的并且或多或少是正态的,那么您的公式会做得相当好,但对称性是一个非常强的假设。

要查看您是否可以得到任何有限均值 - 即使有样本 - 考虑一个由值 1、2、3、4 和 5 中的每一个和一个附加值组成的样本。

无论第 26 个值是多少,您建议的估计量都应始终为 3。要获得任何有限平均值选择一个值并使附加值mm26(m3)+3

也就是说,对于存在均值的合理对称分布,您建议的估计器(trimean)通常作为均值估计执行得相当好;它在正常情况下表现良好,通常对于峰值/重尾更多的情况更好。

如果您希望您的人口分布接近正常,则与三个四分位数相等的权重会稍微更有效 [1]。如果您认为它可以显着地达到峰值(但仍然是对称的,例如或逻辑),那么 trimean 通常是一个很好的选择。t

[1] Doyle, John R. 和 Chen, Catherine Huirong, (2009)
“On the efficiency of the Trimean and Q123”
Journal of Statistics and Management Systems , 12 :2, pp319-323

在不了解您的百分位数的分布情况的情况下,我认为您无法了解平均值。您可以做的是将您拥有的三个点作为数据并计算加权平均值,这就是您的公式所描述的。

不过,我不会将此度量视为原始数据的平均值。这可能是最好的近似值,但均值和中位数之间的关系在很大程度上取决于分布,而这两个四分位数对您的知识贡献不大。