有什么好例子可以展示给本科生?

机器算法验证 假设检验 置信区间 教学
2022-03-21 05:09:15

我将在这个学期的下半学期作为助教给CS本科生教授统计学。大部分上过课的学生没有学习这门学科的动力,只是为了主要的要求才上这门课。我想让这个主题变得有趣和有用,而不仅仅是他们为了通过 B+ 而学习的课程。

作为一名纯数学博士生,我对现实生活中的应用方面知之甚少。我想问一些本科统计学在现实生活中的应用。我正在寻找的例子是(在精神上)像:

1)显示中心极限定理对于某些大样本数据很有用。

2)提供一个中心极限定理不适用的反例(例如,遵循柯西分布的那些)。

3) 使用 Z 检验、t 检验或其他方法展示假设检验在著名的现实生活示例中的工作原理。

4)显示过度拟合或错误的初始假设如何导致错误的结果。

5) 显示 p 值和置信区间在(众所周知的)现实生活案例中是如何工作的,以及它们在哪些地方工作得不好。

6) 同样类型 I、类型 II 错误、统计功效、拒绝水平α, ETC。

我的麻烦是,虽然我在概率方面确实有很多例子(抛硬币、抛骰子、赌徒的毁灭、鞅、随机游走、三囚犯悖论、蒙蒂霍尔问题、算法设计中的概率方法等),但我不知道统计方面的许多典型例子。我的意思是严肃的、有趣的例子,具有一定的教学价值,而且不是非常人为地编造出来的,看起来与现实生活很脱节。我不想给学生一种错误的印象,即 Z-test 和 t-test 就是一切。但由于我纯数学背景,我不知道足够多的例子来让这门课对他们有趣和有用。所以我正在寻求一些帮助。

我学生的水平是微积分 I 和微积分 II。他们甚至无法根据定义显示标准法线的方差为 1,因为他们不知道如何评估高斯核。因此,任何稍微理论上或动手计算的东西(如超几何分布、一维随机游走中的反正弦定律)都行不通。我想展示一些例子,他们不仅可以理解“如何”,还可以理解“为什么”。否则我不确定我是否会通过恐吓来证明我所说的话。

4个回答

一种好方法是安装 R ( http://www.r-project.org/ ) 并使用它的示例进行教学。您可以使用命令“?t.test”等访问 R 中的帮助。每个帮助文件的末尾都有示例。对于 t.test,例如:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

在此处输入图像描述

我建议应用中心极限定理来预先确定样本量并找到诸如“我是否发送了足够多的问卷”等问题的答案。

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf提供了如何应用中心极限定理的真实示例。教学策略可能是:

一)理论

*明确抽样分布和估计分布之间的区别,例如通过掷骰子的“平坦”分布与 N 骰子的平均值分布(使用 R 或让学生自己玩 Excel 绘图单-值分布与均值分布)

*显示平均值分布的基于公式的百分位数计算(因为您对数学很深入,您可能想要推导公式)-这一点对应于上面链接的演示文稿中的幻灯片 10-17

然后(如上面链接的演示文稿中的幻灯片 20 所示):

B) 申请

*显示中心极限定理如何帮助确定样本量,以获得所需的均值估计精确度

根据我的经验,这个应用程序 B) 是非统计学家对统计学家的期望——回答“我有足够的数据吗?”类型的问题。

由于您正在教 CS 学生,因此中心极限定理的一个很好的应用可能是从大量数据集(即 > 1 亿条记录)中估计平均值。表明不必计算整个数据集的平均值,而是从数据集中采样并使用样本平均值来估计整个数据集/数据库的平均值,这可能是有益的。如果您想要并模拟一个对于不同子组具有截然不同的值的数据集,您可以更进一步。然后,您可以让学生探索分层抽样以获得更准确的估计。

同样,由于有 CS 学生,您可能还需要进行一些引导以获得置信区间或估计更复杂统计数据的方差。这是统计数据和计算机的一个很好的交集,因为在我看来,这可能会导致对该主题产生更大的兴趣。

我开始输入评论,但它变得太长了......

请记住,他们是 CS 学生。你不会像取悦数学家那样取悦他们(用σ代数)或生物学家、医生(具有生物学或医学数据,以及用于测试良好的旧零假设的经典配方)。如果你有足够的自由来决定讲座的方向,如果重点是他们学习基本概念,我的建议是彻底改变方向。当然,如果其他老师希望他们能够执行一些预定义的任务,那你就有点卡住了。

所以,在我看来,如果你从“学习”的角度进行推理,如果你从“决策理论”或“分类”的角度进行测试,他们会喜欢的——简而言之,他们应该喜欢算法。探索算法!

另外,尝试查找与 CS 相关的数据集;例如,连接的持续时间和每单位时间对 html 服务器的请求数可以帮助说明许多概念。

他们会喜欢学习模拟技术。Lehmer 生成器很容易实现。向他们展示如何通过反转 cdf 来模拟其他分布。如果您对此感兴趣,请向他们展示 Marsaglia 的 Ziggurat 算法。哦,Marsaglia 的 MWC256 发生器是一个小宝石。Marsaglia 的 Diehard 测试(统一生成器的公平性测试)可以帮助说明概率和统计的许多概念。您甚至可以选择基于“(独立)随机双打,oups,我的意思是实数流”来呈现概率论——这有点厚颜无耻,但它可能很宏大。

另外,请记住页面排名基于马尔可夫链。这不是一件容易的事,但是根据 Arthur Engel 的介绍(我认为参考是概率算盘——如果你读法语,这本书绝对是必读的),你可以很容易地展示一些他们会喜欢的玩具例子. 我认为 CS 科学专业的学生会更喜欢离散马尔可夫链t- 测试,即使它看起来更困难的材料(恩格尔的介绍使它变得非常容易)。

如果您足够掌握自己的主题,请不要犹豫,保持原创。当你教一些你不完全熟悉的东西时,“经典”讲座是可以的。祝你好运,如果你发布一些讲义,请告诉我!