机器算法验证 - 如何计算中位数和四分位数的均值和标准差 - 吾爱随笔录

如何计算中位数和四分位数的均值和标准差

机器算法验证 r 自习意思是分位数

2022-03-31 19:31:42

我有第一四分位数、中位数和第三四分位数。我想找到平均值和标准差。我想使用 Bland 的方法¹，但我没有数据的最大值、最小值。我怎么解决这个问题？有R包吗？

¹布兰德，马丁。2014.“估计样本量的平均值和标准偏差，三个四分位数，最小值和最大值。” 国际医学研究统计杂志 4 (1) : 57–64。

4个回答

您可以查看 Wan等人。(2014) ^*。他们以 Bland (2014) 为基础，根据可用的数据摘要估计这些参数。请参阅他们论文中的场景C _{3 ：}

\bar{X} \approx \frac{q_{1} + m + q_{3}}{3}

$\bar{X} ≈ \frac {q_{1} + m + q_{3}}{3}$

S \approx \frac{q_{3} - q_{1}}{1.35}

$S ≈ \frac {q_{3} - q_{1}}{1.35}$

或者，如果您有样本量：

S \approx \frac{q_{3} - q_{1}}{2 Φ^{- 1} (\frac{0.75 n - 0.125}{n + 0.25})}

$S ≈ \frac {q_{3} - q_{1}}{2 \Phi^{-1}(\frac{0.75n-0.125}{n+0.25}) }$

其中是第一个四分位数，是中位数，是^第三个四分位数，是标准正态分布的第z^{个上百分位数。} $q_{1}$ $m$ $q_{3}$ $\Phi^{-1}(z)$

所以，在 R 中：

q1 <- 0.02
q3 <- 0.04
n <- 100

(s <- (q3 - q1) / (2 * (qnorm((0.75 * n - 0.125) / (n + 0.25)))))
#[1] 0.0150441

^{* 万、向、王文倩、刘继明、童铁军。2014.“从样本大小、中位数、范围和/或四分位间距估计样本均值和标准偏差。” BMC 医学研究方法论 14 (135)。doi: 10.1186/1471-2288-14-135。}

添加到 Michael Chernick 的评论，这里有一个例子。

x <- runif(1000,0,1)
summary(x)  #1st Q = 0.27  3rd = 0.77  mean = .51

x1 <- c(x,100)
summary(x1) #1Q = 0.27  3rd = 0.77  mean = .61

x2 <- c(rnorm(100,0,1), rnorm(10,10,.1))
summary(x2)  # 1st = -.85  3rd = 0.69, mean = 0.71

对于第一对，请注意单个异常值会影响均值，但不会影响四分位数。最后一个例子是平均值大于第三个四分位数的例子。

平均数可能大于第三个四分位数的一个真实案例是收入。

Greco 等人对此主题有详细的出版物，How to impute study-specific standard deviations in meta-analysis of skewed continuous endpoints? 世界荟萃分析杂志 2015；3(5):215-224。

这项工作的主要发现是，将“平均值和 SD 的缺失值与中位数和四分位间距的对应值”近似是可以接受的。

我遇到了类似的问题，我计算了百分位数（0 到 100%），然后我被要求返回平均值，在我的笔记本上玩之后我注意到分位数列表的经验平均值实际上是分布的平均值，以为我发现了一个新定理哈哈，但后来发现了这个

https://en.wikipedia.org/wiki/Inverse_transform_sampling

该定理确定，如果您将 F-1 X(w) 视为一个随机变量，并且您在 [0,1] 中随机采样然后取相应的 X ，您可以通过这种方式从原始分布中生成样本，这就是为什么我得到计算分位数时的均值均值。没有直接提及，但如果您可以生成原始分布的样本，那么它们的均值就是原始分布的均值。

其它你可能感兴趣的问题

上一篇多项逻辑回归中的类别数量是否有限制？下一篇这些方法是贝叶斯方法、频率方法还是两者兼而有之？