引导和比较多个比例

机器算法验证 r 可能性 引导程序 p 值 部分
2022-03-21 13:04:21

编辑 1:感谢@gung 指出,如果袋子最初有 324 颗糖果,那么当妈妈分发它们时,她可以分发的数量连续减少。为了简化事情(因为我有兴趣了解基础知识而不是太高级的东西),他提供了重新措辞。

编辑2:这不是家庭作业。我只是想以一种有趣的方式学习一些统计数据

评论:从迄今为止的所有友好评论/答案中,我突然想到我真的需要更好地定义我未来的问题,因为我没有意识到答案可能会因它的提出方式而有多大差异(非常有用的一课!)。我最初认为这是一个很好的姿势,但是学习这些东西很好,希望能改进,谢谢。

假设一位母亲有一个袋子,里面装着无数的糖果。

我们记录了她从这个袋子中给每个名为“A”、“B”、...、“G”的孩子送了多少糖果,以及她给了未知数量的成年人多少糖果。当母亲走到每个人面前时,她打开一个新的、一模一样的糖果袋,伸手进去拿一些给那个人。到最后,她一共送出了324颗糖果!

> (DF <- data.frame(A=15, B=4, C=1, D=4, E=44, F=4, G=1, Adults=251, Total=324))

   A B C D  E F G Adults Total
  15 4 1 4 44 4 1    251   324

问题 1:她的孩子在 324 种糖果中一共得到了 73 种糖果。在 324 种糖果中,成人总共得到了 251 种糖果。他们的孩子想知道,即使他们的母亲声称每个人都给了成人糖果的比例在统计上是否显着。获得相同数量糖果的机会均等,幸运的是,有些人得到的糖果比其他人多。所以基本上我们想将整个儿童群体与整个成年人群体进行比较,而不是个人。

问题 2:与他们的兄弟姐妹相比,一个或多个孩子是否得到了统计上显着数量的更多糖果(即我们在这个问题上忽略了成人,只考虑孩子“A”、...、“G”)?如果是这样,哪一个(s)的比例在统计上显着?母亲再次声称每个人都有相同的机会获得相同数量的糖果,而有些人比其他人获得更多只是运气。

附加信息:我想使用自举方法,因为在使用模拟时我似乎对概率有更好的感觉(注意:我不是统计学家,只是为了好玩)。下面我将给出我认为可以的第一个​​问题的方法,但如果我做得正确,我将不胜感激。我不知道如何处理第二个问题,因为涉及多个比例。


我对问题一的方法:

假设:我的零假设是儿童和成人获得相同数量糖果的机会相同。我的另一种假设是,母亲在给成年人糖果方面比给她的孩子更慷慨。

研究问题:如果母亲真的公平地分发糖果,我们多久会观察到与孩子一样少的糖果比例?

方法:我们可以通过创建一个包含原假设的假设群体来直接测试这一点,其中 50% 的“儿童”和 50% 的“成人”,并从中重复抽取 324 个随机样本,并进行替换,记录结果。然后我们看看这些样本中有多少有 73 个或更少的“子”节点(这是我们的 p 值)。

replicates <- 999
size <- 324
runs <- list(replicates)
reference <- 73/size

for(i in 1:replicates){
  runs[[i]] <- table(sample(x=c("children", "adult"), size=size, replace=TRUE, prob=c(0.5, 0.5))) 
}

bootstraps <- as.data.frame(do.call(rbind, runs))
#   adult children
# 1   166      158
# 2   171      153
# 3   158      166
# 4   151      173
# 5   156      168
# etc.

sum(bootstraps$children <= reference) / replicates
#[1] 0

结论:我的 p 值实际上为零,这意味着有强有力的证据表明母亲一直在不公平地分发糖果,因为仅靠运气不太可能获得 73 颗或更少的糖果。

至于问题2,我画的是一个完整的空白:(

3个回答

这些问题,尤其是第二个问题,就目前而言毫无意义。问题是没有定义“从袋子里取出随机数量的糖果”的概念。即使袋子里的糖果数量有限,也可能有多种定义。例如,以下两个听起来都合理,但给出不同的结果:

  1. 如果袋子里有颗糖果,则恰好取颗糖果的概率都相同:n0,1,,n1/(n+1)
  2. 决定是否将其取出这意味着恰好有糖果的概率是px(nx)px(1p)nx

一旦你进入无限袋,这些选项都不适用。所以我们只能说有一些未知的分布给出了糖果的概率。使用引导的想法,您可以将其估计为观察到的分布: , ,请注意,这意味着比较不同孩子收到的糖果数量的问题几乎没有意义。您可能会计算出每个孩子收到实际数量或更少糖果的概率,有些人可能会比其他人幸运,但根据定义,有些人必须不那么幸运。xP(1 candy)=2/7P(4 candies)=3/7P(15 candies)=1/7P(44 candies)=1/7

至于第一个问题,您需要在对成年人或将孩子/成年人发送给妈妈的过程做出一些假设之后从观察到的分布中引导。我可以想到几个选项,但没有什么是完全令人满意的,因为您希望将儿童的数量固定为 7,糖果的总数固定为 324,同时保持观察到的每把糖果的分布并改变成人的数量适当地。也许放弃其中一些条件(例如糖果总数)是合理的。

即使使用引导程序,您构建问题的方式也无法真正得到您想要的答案。我将从引导程序的角度给您答复。

#1 你可以得出的结论是,她同样慷慨。这是因为您只有一个随机过程样本,即儿童样本。将其推断到成年人意味着它仍然是相同的分布,并且从儿童数据中对问题的任何适当引导都必须表明成年人是相同的。(如果您的意思是对每个成年人和每个孩子都慷慨,这是有道理的)

#2 这是无法回答的,因为除了您拥有的发行版之外,您没有任何其他知识。因此,这就是您对随机的定义,您不能不公平地称任何样本高于任何其他样本。也许如果您可以为每个孩子提供一个以上的样本,但您没有。

此处不需要引导程序,因为空分布已明确定义。不应仅仅因为您对模拟感到满意而使用 Bootstrap。引导程序在这种情况下工作,并且将提供与直接方法基本相同的结果。所以你的动机不是这里的一个因素。听起来您正确处理了第一个问题。

对于问题 2,对比例进行成对比较(两个样本二项式或相应的引导程序)。调整多重性的 p 值。在调整后的比较中具有显着 p 值的孩子可以被认为在收到的糖果方面受到不同的对待。

此答案是针对更改之前的初始问题的。随机选择一个数字让孩子浑水摸鱼(增加了不确定性)。孩子之间的统计显着差异可能是由于优先给某些孩子而不是其他孩子(您会感兴趣的偏好效果),或者只是因为偶然某些孩子碰巧获得了抽奖并在被选中时获得了更多糖果(不感兴趣的随机事件)。正如 Aniko 指出的那样,只有为抽取的数字指定概率分布,问题才能得到很好的定义。