考试结果是二项式吗?

机器算法验证 自习 二项分布
2022-01-30 02:26:27

这是我收到的一个简单的统计问题。我不确定我是否理解它。

X = 考试中获得的分数(多选和正确答案为一分)。X 二项式分布吗?

教授的回答是:

是的,因为只有正确或错误的答案。

我的答案:

不,因为每个问题都有不同的“成功概率”p。正如我所了解的那样,二项式分布只是一系列伯努利实验,每个实验都有一个简单的结果(成功或失败),具有给定的成功概率 p(并且所有关于 p 的“相同”)。例如,将(公平的)硬币翻转 100 次,这是 100 次伯努利实验,并且都有 p=0.5 。但是这里的问题有不同类型的 p 对吗?

4个回答

我同意你的回答。通常这种数据现在会用某种项目响应理论模型来建模。例如,如果您使用Rasch 模型,则二进制答案Xni将被建模为

Pr{Xni=1}=eβnδi1+eβnδi

其中可以被认为是个人的能力,而 delta_i 可以被认为个问题的难度。因此,该模型使您能够捕捉到不同的人能力不同,问题的难度不同的事实,这是 IRT 模型中最简单的一个。βnnδii

您的教授的回答假设所有问题都具有相同的“成功”概率并且是独立的,因为二项式是 iid Bernoulli 试验之和的分布。它忽略了上述两种依赖关系。n

正如评论中所注意到的,如果您查看特定人的答案分布(因此您不必关心人与人之间的变异性),或者不同人对同一项目的答案(因此没有介于 -项目可变性),则分布将是泊松二项式,即非独立同分布伯努利试验之和的分布。分布可以用二项式或泊松近似,但仅此而已。否则,您正在做出 iid 假设。n

即使在关于猜测的“空”假设下,这也假设没有猜测模式,因此人们的猜测方式没有差异,项目的猜测方式也没有差异——所以猜测纯粹是随机的。

这个问题的答案取决于问题的框架以及何时获得信息。总的来说,我倾向于同意教授的观点,但认为他/她的答案的解释很差,教授的问题应该预先包含更多信息。

如果您考虑无限数量的潜在考试问题,并且您为问题 1 随机抽取一个,为问题 2 随机抽取一个,等等。然后进入考试:

  1. 每个问题都有两个结果(对或错)
  2. 有固定数量的试验(问题)
  3. 每个试验都可以被认为是独立的(进入问题二,你做对的概率与进入问题一时相同)p

在此框架下,满足二项式实验的假设。

唉,不恰当的统计问题在实践中很常见,而不仅仅是在考试中。我会毫不犹豫地为你的教授辩护你的理由。

如果有 n 个问题,并且我可以以概率 p 正确回答任何一个问题,并且有足够的时间尝试回答所有问题,并且我做了 100 次这样的测试,那么我的分数将呈正态分布,平均值为 np。

但这不是我重复测试 100 次,而是 100 个不同的候选人在做一个测试,每个人都有自己的概率 p。这些 p 的分布将是最重要的因素。你可能有一个测试,如果你学得好,p = 0.9,如果你没有学好,p = 0.1,很少有人在 0.1 和 0.9 之间。点的分布将在 0.1n 和 0.9n 处具有非常强的最大值,并且与正态分布相去甚远。

另一方面,有些测试每个人都可以回答任何问题,但需要的时间不同,所以有些人会回答所有 n 个问题,而有些人会因为时间用完而回答较少。如果我们可以假设候选者的速度是正态分布的,那么这些点将接近于正态分布。

但是许多测试会包含一些非常难和一些非常简单的问题,故意这样我们才能区分最好的候选人(他们会回答所有问题的难度)和最差的候选人(他们只能回答非常困难的问题)简单的问题)。这将非常强烈地改变点的分布。

根据定义,二项分布是一组独立且同分布的伯努利试验。在多项选择考试的情况下,问题中的每一个都是伯努利试验之一。n n

这里的问题出现是因为我们不能合理地假设问题:n

  • 同分布的。正如您所说,学生知道问题答案的概率几乎肯定不会与他们知道问题答案的概率相同,依此类推。12
  • 独立的。许多考试提出的问题都建立在前一个问题的答案之上。谁敢肯定在这个问题的考试中不会发生这种情况?还有其他因素可以使考试问题的答案不相互独立,但我认为这是最直观的。

我在统计学课上看到过将考试问题建模为二项式的问题,但它们的框架如下:

什么样的概率分布可以模拟多项选择考试中正确回答的问题数量,其中每个问题都有四个选择,并且参加考试的学生随机猜测每个答案?

的二项分布p=14