编辑 1:感谢@gung 指出,如果袋子最初有 324 颗糖果,那么当妈妈分发它们时,她可以分发的数量连续减少。为了简化事情(因为我有兴趣了解基础知识而不是太高级的东西),他提供了重新措辞。
编辑2:这不是家庭作业。我只是想以一种有趣的方式学习一些统计数据
评论:从迄今为止的所有友好评论/答案中,我突然想到我真的需要更好地定义我未来的问题,因为我没有意识到答案可能会因它的提出方式而有多大差异(非常有用的一课!)。我最初认为这是一个很好的姿势,但是学习这些东西很好,希望能改进,谢谢。
假设一位母亲有一个袋子,里面装着无数的糖果。
我们记录了她从这个袋子中给每个名为“A”、“B”、...、“G”的孩子送了多少糖果,以及她给了未知数量的成年人多少糖果。当母亲走到每个人面前时,她打开一个新的、一模一样的糖果袋,伸手进去拿一些给那个人。到最后,她一共送出了324颗糖果!
> (DF <- data.frame(A=15, B=4, C=1, D=4, E=44, F=4, G=1, Adults=251, Total=324))
A B C D E F G Adults Total
15 4 1 4 44 4 1 251 324
问题 1:她的孩子在 324 种糖果中一共得到了 73 种糖果。在 324 种糖果中,成人总共得到了 251 种糖果。他们的孩子想知道,即使他们的母亲声称每个人都给了成人糖果的比例在统计上是否显着。获得相同数量糖果的机会均等,幸运的是,有些人得到的糖果比其他人多。所以基本上我们想将整个儿童群体与整个成年人群体进行比较,而不是个人。
问题 2:与他们的兄弟姐妹相比,一个或多个孩子是否得到了统计上显着数量的更多糖果(即我们在这个问题上忽略了成人,只考虑孩子“A”、...、“G”)?如果是这样,哪一个(s)的比例在统计上显着?母亲再次声称每个人都有相同的机会获得相同数量的糖果,而有些人比其他人获得更多只是运气。
附加信息:我想使用自举方法,因为在使用模拟时我似乎对概率有更好的感觉(注意:我不是统计学家,只是为了好玩)。下面我将给出我认为可以的第一个问题的方法,但如果我做得正确,我将不胜感激。我不知道如何处理第二个问题,因为涉及多个比例。
我对问题一的方法:
假设:我的零假设是儿童和成人获得相同数量糖果的机会相同。我的另一种假设是,母亲在给成年人糖果方面比给她的孩子更慷慨。
研究问题:如果母亲真的公平地分发糖果,我们多久会观察到与孩子一样少的糖果比例?
方法:我们可以通过创建一个包含原假设的假设群体来直接测试这一点,其中 50% 的“儿童”和 50% 的“成人”,并从中重复抽取 324 个随机样本,并进行替换,记录结果。然后我们看看这些样本中有多少有 73 个或更少的“子”节点(这是我们的 p 值)。
replicates <- 999
size <- 324
runs <- list(replicates)
reference <- 73/size
for(i in 1:replicates){
runs[[i]] <- table(sample(x=c("children", "adult"), size=size, replace=TRUE, prob=c(0.5, 0.5)))
}
bootstraps <- as.data.frame(do.call(rbind, runs))
# adult children
# 1 166 158
# 2 171 153
# 3 158 166
# 4 151 173
# 5 156 168
# etc.
sum(bootstraps$children <= reference) / replicates
#[1] 0
结论:我的 p 值实际上为零,这意味着有强有力的证据表明母亲一直在不公平地分发糖果,因为仅靠运气不太可能获得 73 颗或更少的糖果。
至于问题2,我画的是一个完整的空白:(