新闻中的方程式:将多层次模型翻译给普通观众

机器算法验证 回归 多层次分析 媒体统计
2022-01-17 14:44:02

《纽约时报》对用于向纽约市教育工作者提供反馈的“增值”教师评估系统发表了长篇评论。lede 是用于计算分数的方程式 - 没有上下文。修辞策略似乎是通过数学恐吓:

替代文字

文章全文见:http ://www.nytimes.com/2011/03/07/education/07winerip.html

作者 Michael Winerip 认为,方程式的含义超出了除了马特·达蒙之外的任何人的理解能力,更不用说普通老师了:

“艾萨克森女士的 3.69 预测分数的计算更加令人生畏。它基于 32 个变量 - 包括学生是否“在考试前一年留级”,以及学生是否“在考试前或考试后刚到城市年。”

这 32 个变量被插入到一个统计模型中,该模型看起来像是在“善意狩猎”中只有马特达蒙能够解决的方程之一。

这个过程看起来是透明的,但它却一清二楚,即使对于像老师、校长和——我不敢这么说——记者这样的聪明的外行人来说也是如此。

艾萨克森女士可能拥有两个常春藤盟校学位,但她迷路了。“我觉得这无法理解,”她说。

简而言之,艾萨克森女士对该部门试图告诉她的最佳猜测是:尽管她的 66 名学生中有 65 人在州考试中取得了熟练的成绩,但她的 3 分更多应该是 4 分。

但这只是一个猜测。”

您将如何向外行解释该模型?仅供参考,完整的技术报告位于:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

更新:Andrew Gelman 在这里提出他的想法:http: //www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

3个回答

这是一种可能性。

评估教师的表现历来是困难的。这种困难的一部分是不同的学生对给定的学科有不同程度的兴趣。如果给定的学生获得 A,这并不一定意味着教学非常好——相反,这可能意味着一个非常有天赋和兴趣的学生即使在教学质量不佳的情况下也尽了最大努力取得成功。相反,一个学生得了 D 并不一定意味着教学很差——相反,这可能意味着一个不感兴趣的学生尽管老师尽了最大的努力去教育和启发,但还是失败了。

学生的选择(以及学生的兴趣水平)远不是随机的,这一事实加剧了难度。学校通常会强调一个科目(或一组科目)而不是其他科目。例如,一所学校可能会强调技术学科而不是人文学科。这类学校的学生可能对技术领域非常感兴趣,以至于即使是最差的老师,他们也会获得及格的成绩。因此,通过数学的学生比例并不能很好地衡量教学——我们希望好老师比那些渴望学习的学生做得更好。相比之下,这些学生可能对艺术根本不感兴趣。即使是最好的老师也很难确保所有学生都获得 A。

另一个困难是,并非所有班级的成功都直接归功于该班级的老师。相反,成功可能是由于学校(或整个学区)为成就创造了动力和框架。

考虑到所有这些困难,研究人员创建了一个评估教师“附加值”的模型。本质上,该模型考虑了每个学生的内在特征(整体兴趣水平和学习成功),以及学校和学区对学生成功的贡献,并预测了“平均”预期的学生成绩在那种环境下教学。然后,该模型将实际成绩与预测成绩进行比较,并在此基础上决定在考虑所有其他因素的情况下教学是否充分,好于充分,还是更差。尽管该模型对于非数学家来说可能看起来很复杂,但它实际上非常简单和标准。几十年来,数学家一直在使用类似(甚至更复杂)的模型。

总而言之,艾萨克森女士的猜测是正确的。尽管她的 66 名学生中有 65 人在州考试中取得了熟练的成绩,但即使他们的老师是一只狗,他们的分数也会一样。一位真正的好老师会让这些学生在同一次考试中不仅取得“熟练”的成绩,而且实际上取得了“好”的成绩。


在这一点上,我可以提到我对模型的一些担忧。例如,模型开发人员声称它解决了评估教学质量的一些困难。我有足够的理由相信他们吗?收入较低的社区的预期“地区”和“学校”得分较低。假设一个社区的预期得分为 2.5。平均达到 3 分的老师会得到很好的评价。这可能会促使教师瞄准 3 分,而不是 4 或 5 分。换句话说,教师将瞄准平庸而不是完美。我们希望这种情况发生吗?最后,尽管该模型在数学上很简单,但它的工作方式与人类直觉的工作方式截然不同。因此,我们没有明显的方法来验证或质疑模型' 的决定。艾萨克森女士不幸的例子说明了这可能导致什么。我们想在如此重要的事情上盲目依赖计算机吗?


请注意,这是对外行的解释。我在这里回避了几个可能引起争议的问题。例如,我不想说低收入人口学区的表现会更差,因为这对外行来说听起来不太好。

此外,我假设目标实际上是对模型进行合理公平的描述。但我很确定这不是 NYT 的目标。因此,在我看来,他们的解释不佳的至少部分原因是故意 FUD。

“你的教学分数取决于你的学生与基于

  • 他们事先知道的,通过预先测试来衡量,

  • 根据我们对他们个人的了解(他们的“特征”),我们认为学生的学习能力如何,

  • 以及学生在您所在地区、学校和教室的平均表现如何(如果您的教室中有其他老师)。

“换句话说,我们是根据所测量的学习量来评估你,在考虑到你的学生的准备和特点以及所有学生在像你这样的环境中的典型表现以及你可用的资源之后。

“通过这种方式,你的分数反映了对学生表现的贡献,就我们可以确定的那样。当然,我们不可能知道一切:我们知道你有独特和特殊的学生,你面临的情况永远不会被复制。因此,我们知道这个分数只是一个不完全反映你教得如何的估计,但它比仅基于后测或你的班级获得的原始测试收益的估计更公平、更准确。”

这里没有什么可理解的。

好吧,这只是一个标准的线性回归模型。它假设学生的分数可以描述为几个因素的线性函数,包括学校和教师效率系数——因此它共享线性模型的所有标准问题,主要是它是非线性模型的一个很好的近似。世界,也可能完美地工作或令人尴尬地糟糕,这取决于情况以及人们试图推断它的程度。(但是应该期望技术代表的作者检查它并发现它没问题;-))。

但真正的问题是,这是一个分析工具,不应该用来评估人们的成就——这样(完全不管分数是否公平)每个评估者都试图理解她/他的分数(可能是希望优化它)只会遇到绝望的混乱,就像在这种情况下一样。