用于教学目的的著名统计胜利和恐怖故事

机器算法验证 数理统计 数据可视化 实验设计 教学
2022-01-16 00:08:22

我正在与当地社区大学一起设计一个为期一年的数据分析课程。该计划旨在让学生准备好处理数据分析、可视化和总结、高级 Excel 技能和 R 编程方面的基本任务。

我想准备一组简短的、真实的例子来说明普通直觉在哪里失败并且统计分析是必要的。我也对“著名的统计失败”感兴趣,但对胜利更感兴趣。所涉及的数据应该是免费的。

我正在寻找的一个完美例子是伯克利歧视案,它说明了辛普森的悖论。相关数据记录在 R 的数据集中。

历史案例也很有趣。John Snow 对 Broad Street 泵数据的分析是可视化力量的一个很好的例子。

在数据收集(选择偏差)等方面有很多失败,医学统计学的文献中充满了。

在变量选择和抽样设计领域出现了很多“统计上的胜利”。我对发生在其他领域的悖论感兴趣——比如分析本身。

4个回答

我真的很喜欢德国坦克问题它表明,通常被认为不相关的数据如何在统计学家手中变成有价值的信息。此外,我喜欢小数定律基本利率谬误

R vs Sally Clark是一个著名的案件,一名妇女因谋杀罪被定罪,因为法院不了解统计数据和概率基础原则。

但如果非要说最让我印象深刻的话,当我开始学习统计学的时候,那就是回归均值,这也给了统计回归这个名字(即使那是完全不同的东西)。诺贝尔奖获得者(经济学奖,即使他是心理学家)丹尼尔·卡尼曼(Daniel Kahneman)讲述了一个有趣的轶事,讲述了他如何意识到回归均值会导致人们产生错误的信念。

编辑:另一个我刚想到的非常有趣的故事,而是关于丢失数据的重要性,是亚伯拉罕沃尔德和战机弹孔之一

为了说明普通直觉在哪里失败蒙蒂霍尔悖论是一个很好的开端。

本福德定律:

描述在这里数字出现在数字前面的频率不是统一的,而是遵循特定的模式:数字 1 最有可能成为第一个数字,有 30% 的机会,其次是 2(17.6% 的机会),依此类推下图(来自维基百科)显示了在一些自然出现的数据集中每个数字开头的每个数字的频率:

在一些自然出现的数据集中,每个数字开头的每个数字的频率

法律在某些条件下成立(例如,数据应该跨越多个尺度,所以像人的身高这样的东西不符合条件),但它是相当通用的。

也许最令人惊讶的应用是欺诈检测。这是基于这样的假设,即试图捏造数字的人倾向于均匀地分布数字,从而违反了本福德定律。

我记得有一次我在课堂上解释这一点,在课间休息时,一个学生从他的公司拿出了一份会计电子表格,他试图在其中验证我的说法。有效 :)

齐夫定律

此处描述:语料库中单词的频率与其排名成反比。令人惊讶的是,这种关系适用于任何语料库,甚至适用于尚未翻译的古代语言。一个有趣的视频解释了为什么这种模式可能存在在这里下图显示了 30 个 Wikipedia 中前 1000 万个单词的排名(水平)与频率(垂直)的对数比例(来源)。请注意,该定律将预测一条直线: 排名与频率

这两条定律是强大而反直觉的,在它们通过统计增强人们对世界的理解的意义上,它们可以称为“统计胜利”。