人口平均值增加 2 倍的 2 个小数据集的统计比较

数据挖掘 统计数据 采样
2022-02-08 17:50:09

我试图确定我们是否有 90% 的信心,即基于每个人口的样本,拟议 人口的平均值至少是现有人口平均值的 2 倍, 我现在拥有的所有数据。这是数据。

现有值 = (7.3, 8.4, 8.4, 8.5, 8.7, 9.1, 9.8, 11.0, 11.1, 11.9)

建议值 = (17.3, 17.9, 19.2, 20.3, 20.5, 20.6, 21.1, 21.2, 21.3, 21.7)

我不知道任何一个人口是否正常。

样本均值的比率确实超过了 2.0,但这如何转化为置信度,即建议的总体均值将至少是 90% 置信度的现有总体均值的两倍?

重新采样(带替换的引导)可以帮助回答这个问题吗?

2个回答

是的,原则上,重采样可以帮助回答这个问题。

incumbent <- c(7.3, 8.4, 8.4, 8.5, 8.7, 9.1, 9.8, 11.0, 11.1, 11.9)
proposed  <- c(17.3, 17.9, 19.2, 20.3, 20.5, 20.6, 21.1, 21.2, 21.3, 21.7)

set.seed(42)

M  <- 2000
rs <- double(M)

for (i in 1:M) {
    rs[i] <- mean(sample(proposed, replace=T)) - 2 * mean(sample(incumbent, replace=T))
}

要进行评估,您应该选择以下一项(而不是两项):

A. 使用霍尔方法的(加权)均值差异的(双尾)90% 置信区间为:

ci.hall <- 2 * (mean(proposed)-2*mean(incumbent)) - rev(quantile(rs,prob=c(0.05, 0.95)))
names(ci.hall) <- rev(names(ci.hall))
ci.hall

   5%   95% 
-0.29  2.95 

如果您担心错过 mean(proposed) 实际上可能小于 2 * mean(incumbent) 的可能性,这是合适的。

B. 重新采样均值的比例 >= 0 提供了(单尾)估计,即均值(提议的)至少是均值(现任)的两倍:

sum(rs>=0)/M

[1] 0.8915

问题是样本非常小,对于小 n,重采样估计可能不稳定。如果您想评估正态性并进行参数比较,同样的问题也适用。

如果你可以达到,比如说,n >= 30,那么这里描述的方法应该没问题。

这是我在循环中编程的内容。

  1. 从现有样本中随机取 10 个值(带替换),确定其平均值
  2. 从建议的样本中随机取 10 个值(带替换),确定其平均值
  3. 形成上述两种方式的比率并将其附加到主列表
  4. 多次重复步骤 1 到 3(我选择了 100 万)
  5. % 置信度=(等于或超过 2.0/1000000 的比率数)*100

结果:正好有 897450 个比率大于或等于 2.0,置信度为 89.745%。

结论:我们不到 90% 的信心认为,拟议人口的平均数至少是在职人口的两倍。