如何在 10 分钟内解释青少年的假设检验?

机器算法验证 假设检验 教学
2022-01-19 17:35:41

一年多以来,我一直在上一小时的“统计学品味”课。每次我有一群不同的孩子过来,我给他们上课。

这堂课的主题是我们进行了一个实验,给 10 个孩子(喜欢喝可口可乐)两个(没有标记的)杯子,一个是可口可乐,一个是百事可乐。孩子们被要求根据味道和气味来检测哪个杯子里有可口可乐饮料。

然后我需要向他们解释如何确定孩子们是否在猜测,或者他们(或至少,足够多的人)是否真的有能力品尝差异。10次​​成功中有10次足够好吗?10个中有7个呢?

即使在给这门课上了几十次(不同的变体)之后,我仍然觉得我不知道如何以大多数班级都能理解的方式传达这个概念。

如果您对如何以简单(!)和直观的方式解释假设检验、零假设、替代假设、拒绝区域等的概念有任何想法- 我很想知道如何。

4个回答

我认为你应该首先问他们,他们认为对一个人说他或她能够区分可口可乐和百事可乐的真正含义是什么。这样的人能做什么别人做不到的事?

他们中的大多数人不会有任何这样的定义,如果被问到,他们也无法做出这样的定义。然而,这句话的含义是统计给我们的,这就是你可以通过“统计品味”课程带来的东西。

统计的要点之一是对这个问题给出一个准确的答案:“说某人能够区分可口可乐和百事可乐是什么意思”

答案是:在盲测中,他或她比猜谜机更能对杯子进行分类。猜谜机无法区分,它只是一直在猜测。猜谜机对我们来说是一项有用的发明,因为我们知道它没有这个能力。猜测机的结果很有用,因为它们显示了我们应该从缺乏我们测试的能力的人身上得到什么。

要测试一个人是否能够区分可口可乐和百事可乐,必须将他或她在盲测中对杯子的分类与猜测机所做的分类进行比较。只有当她/他比猜谜机更好时,她/他才能分辨出其中的差别。

那么,您如何确定一个结果是否优于另一个结果?如果它们几乎相同怎么办?

如果两个人对少量杯子进行分类,如果结果几乎相同,说一个比另一个好是不公平的。或许今天的胜者只是碰巧运气好,如果明天再重赛,结果就会逆转?

如果我们要得到一个值得信赖的结果,它不能基于少数分类,因为机会可以决定结果。请记住,您不必完美才能拥有能力,您只需比猜谜机更好。事实上,如果分类的数量太少,即使是一个总是能正确识别可口可乐的人,也无法证明他/她比猜谜机更好。例如,如果只有一个杯子要分类,即使是猜谜机也有 50% 的机会分类完全正确。这不好,因为这意味着在 50% 的试验中,我们会错误地得出结论,即一个好的可口可乐标识符并不比猜测机好。很不公平。

待分类的杯子越多,猜谜机被揭穿的机会就越多,好可口可乐标识的炫耀机会也就越多。

10 杯可能是一个不错的起点。一个人必须有多少正确答案才能证明他或她比机器更好?

问他们会猜到什么。

然后让他们使用机器并找出它有多好,即让所有学生产生一系列十个猜测,例如。在智能手机上使用骰子或随机发生器。为了教学,你应该准备一系列的十个正确答案,用来评估猜测。

在黑板上记录所有结果。在黑板上打印排序结果。解释说,在统计学家承认他或她有能力区分可口可乐和百事可乐之前,人类必须优于这些结果的 95%。画一条线,将 95% 的最差结果与前 5% 的结果分开。

然后,让几个学生尝试对 10 个杯子进行分类。到现在为止,学生应该知道他们需要多少正确才能证明他们能分辨出不同。

不过,这一切在 10 分钟内并不是真正可行的。

与苏打水一起工作听起来很有趣,一旦你对假设检验有了合理的了解,测试青少年是否真的能分辨出苏打水之间的区别是有意义的。问题可能是这个问题:“你真的能分辨出苏打水之间的区别吗?” 在青少年的脑海中,还有很多其他的东西让事情变得复杂起来,比如“谁在测试苏打水方面好谁坏?”、“苏打水之间实际上有什么区别吗?”

我从来没有教过青少年的统计数据,但我一直幻想着使用装好的骰子或有偏见的硬币。死得更有趣,但在统计上更具挑战性。以硬币为例,硬币要么是公平的,要么是不公平的。抛硬币不擅长。没有决定是正面还是反面。

如果我们为谁赢得 100 美元掷硬币,结果正面朝上(你赢了!),我可能会说,“嘿。我怎么知道那枚硬币是否公平?我打赌你操纵了比赛!”。你说“哦,是吗?证明吧。” 相当明显的解决方案是一遍又一遍地翻转硬币,看看它出现的正面是否多于反面。我们翻转它,它出现了。“啊哈!我说。瞧!它偏向头部!” 等等。

好的有偏硬币不存在,但有偏骰子确实存在——你可以在亚马逊上买到。如果学生可以赢得一定数量的卷,您可以为他们提供奖品。但你知道你会赢。他们会生气的。你说,好吧,如果你能以 95% 的信心证明这个骰子是有偏见的,我会给你奖励。

然后继续喝苏打水。奖品甚至可以是汽水派对!“喂,不知道你们能不能分清可乐和百事可乐的区别……”

考虑有人用霰弹枪练习打靶,霰弹枪朝枪管的方向发射子弹。

零假设:我是一名出色的射手,而且我的枪管完全命中目标。不是左,不是右,而是直截了当。我的错误是0。

备择假设:我是一个糟糕的射手,我的枪管偏离了目标。就在目标的左侧或右侧。我的错误是 e>0 或 e<0。

由于任何测量都有一定的平均误差(即标准误差),因此即使我是直线射击,也可能会出现“偏离目标”的测量结果。在您称我为差劲射手并选择替代假设之前,我需要不“击中”我的目标(根本,即使每次射击都是爆发/扩散)一定次数。

假设孩子们无法区分并随机决定。然后每个孩子有 50% 的机会猜对。所以你期望(期望值)在这种情况下,5 个孩子做对了,5 个孩子做错了。当然,由于是偶然的,也有可能 6 个孩子犯错,4 个孩子做对,以此类推。另一方面,即使孩子们能分辨出不同之处,也有可能他们中的一个偶然会犯错。

直观地,很明显,如果孩子们偶然猜测,那么所有孩子都给出正确答案的可能性很小。在这种情况下,人们宁愿相信孩子们实际上可以品尝到两种饮料之间的差异。换句话说,我们不希望观察到不可能发生的事件。因此,如果我们观察到在 50-50 斯堪纳里奥下不太可能发生的事件,我们宁愿相信这种情况是错误的,孩子们可以区分可口可乐和百事可乐。

但是“相当不可能”和“相当相信”是什么意思呢?让你的学生选择α:“如果我们从极端情况下观察到一个与 50-50 假设相矛盾的事件,它最多有多大的概率让你不再相信这个假设?” 希望他们不要回答α0.00098写他们的α在董事会。我假设α=0.05. 所以你和你的学生同意:如果我们观察到一个属于与 50-50 情景相矛盾的极端事件的上 5% 的事件,我们不再相信这种情景(拒绝假设)。

现在用它们计算二项分布。P(all kids guess it right)=0.00098,P(only one kid confuses Coke with Pepsi)=0.01074P(only two kids confuse)=0.05468. 显然,如果最多有一个孩子混淆它们,您只会得出两种饮料之间存在差异的结论。

这是您进行实验的时刻。对所有 10 名学生进行彻底的检查,即使您只是计算出在第二个错误后您可以停止。然后记录结果并保存。如果您想向他们解释荟萃分析,您将需要这些结果。

(顺便说一下,历史上的例子是先将牛奶或茶倒入杯中,然后品尝。品茶女士。)