如果我有中位数(0.5 个百分位数),以及 0.25 和 0.75 个百分位数,对均值的最佳猜测是什么?
如果 0.25 和 0.75 百分位数位于权重为 0.5(每边 0.25)的概率质量的中间,并且中位数的每边都有 0.5,
用以下方法近似平均值是否有意义:
(`.25 pctile` + 2*`median` + `.75 pctile`) / 4
在这种情况下,我没有更多的粒度。我想避免像这里那样在某些参数意义上拟合分布
如果我有中位数(0.5 个百分位数),以及 0.25 和 0.75 个百分位数,对均值的最佳猜测是什么?
如果 0.25 和 0.75 百分位数位于权重为 0.5(每边 0.25)的概率质量的中间,并且中位数的每边都有 0.5,
用以下方法近似平均值是否有意义:
(`.25 pctile` + 2*`median` + `.75 pctile`) / 4
在这种情况下,我没有更多的粒度。我想避免像这里那样在某些参数意义上拟合分布
如果不强加某种假设,我们几乎可以说什么。
人口的意思可能是任何东西——实线上的任何值......或者可能是无限的,或者未定义的。
如果基础分布是对称的和单峰的并且或多或少是正态的,那么您的公式会做得相当好,但对称性是一个非常强的假设。
要查看您是否可以得到任何有限均值 - 即使有样本 - 考虑一个由值 1、2、3、4 和 5 中的每一个和一个附加值组成的样本。
无论第 26 个值是多少,您建议的估计量都应始终为 3。要获得任何有限平均值选择一个值并使附加值。
也就是说,对于存在均值的合理对称分布,您建议的估计器(trimean)通常作为均值估计执行得相当好;它在正常情况下表现良好,通常对于峰值/重尾更多的情况更好。
如果您希望您的人口分布接近正常,则与三个四分位数相等的权重会稍微更有效 [1]。如果您认为它可以显着地达到峰值(但仍然是对称的,例如或逻辑),那么 trimean 通常是一个很好的选择。
[1] Doyle, John R. 和 Chen, Catherine Huirong, (2009)
“On the efficiency of the Trimean and Q123”
Journal of Statistics and Management Systems ,
12 :2, pp319-323
在不了解您的百分位数的分布情况的情况下,我认为您无法了解平均值。您可以做的是将您拥有的三个点作为数据并计算加权平均值,这就是您的公式所描述的。
不过,我不会将此度量视为原始数据的平均值。这可能是最好的近似值,但均值和中位数之间的关系在很大程度上取决于分布,而这两个四分位数对您的知识贡献不大。