我正在帮助我的孩子们,目前正在上高中,理解统计数据,我正在考虑从一些简单的例子开始,而不是忽略一些理论。
我的目标是为他们提供最直观但最有建设性的方法来从头开始学习统计学,以激发他们对进一步追求统计学和定量学习的兴趣。
不过,在开始之前,我有一个非常笼统的问题:
我们应该开始使用贝叶斯或常客框架教授统计学吗?
环顾四周,我发现一种常见的方法是先简要介绍频率统计,然后深入讨论贝叶斯统计(例如Stangl)。
我正在帮助我的孩子们,目前正在上高中,理解统计数据,我正在考虑从一些简单的例子开始,而不是忽略一些理论。
我的目标是为他们提供最直观但最有建设性的方法来从头开始学习统计学,以激发他们对进一步追求统计学和定量学习的兴趣。
不过,在开始之前,我有一个非常笼统的问题:
我们应该开始使用贝叶斯或常客框架教授统计学吗?
环顾四周,我发现一种常见的方法是先简要介绍频率统计,然后深入讨论贝叶斯统计(例如Stangl)。
贝叶斯统计和常客统计都基于概率论,但我想说前者从一开始就更依赖于理论。另一方面,一旦学生对概率的概念有了很好的理解,可信区间的概念肯定比置信区间的概念更直观。所以,无论你选择什么,我主张首先加强他们对概率概念的掌握,所有这些例子都是基于骰子、纸牌、轮盘赌、蒙蒂霍尔悖论等的。
我会根据纯粹的功利主义方法选择一种方法:他们更有可能在学校学习频率统计或贝叶斯统计?在我的国家,他们肯定会首先学习频率论框架(也是最后:从来没有听说过高中生被教贝叶斯统计,唯一的机会是在大学或之后,通过自学)。也许在你的情况下有所不同。请记住,如果他们需要处理 NHST(零假设显着性检验),这在 IMO 频率统计的背景下更自然地出现。当然,您也可以在贝叶斯框架中检验假设,但是有许多领先的贝叶斯统计学家主张根本不使用 NHST,无论是在频率论者还是贝叶斯框架下(例如,哥伦比亚大学的 Andrew Gelman)。
最后,我不知道你们国家的高中生水平如何,但在我的国家,学生很难同时成功地吸收概率论(基础)和积分。所以,如果你决定使用贝叶斯统计,我真的会避免连续随机变量的情况,并坚持使用离散随机变量。
贝叶斯和常客提出不同的问题。贝叶斯会根据观察到的数据询问哪些参数值是可信的。如果某些假设的参数值是真实的,频率学家会询问虚拟模拟数据的概率。频繁决策是由控制错误驱动的,贝叶斯决策是由模型描述中的不确定性驱动的。
那么你应该先教哪个?好吧,如果这些问题中的一个或另一个是你想首先问的,那就是你的答案。但就可接近性和教学法而言,我认为贝叶斯更容易理解,也更直观。贝叶斯分析的基本思想是在可能性之间重新分配可信度,就像福尔摩斯所说的那句名言,数以百万计的读者已经直观地理解了这一点。但是频率分析的基本思想非常具有挑战性:如果特定假设为真,可能发生的所有可能数据集的空间,以及具有汇总统计量或比汇总更极端的假想数据集的比例实际观察到的统计量。
关于贝叶斯思想的免费介绍性章节在这里。一篇将常客和贝叶斯概念并列设置的文章在这里。这篇文章解释了假设检验和估计(以及许多其他东西)的常客和贝叶斯方法。这篇文章的框架可能对试图了解风景的初学者特别有用。
这个问题有可能是基于观点的,所以我会尽量简短地表达我的观点,然后给你一个书籍建议。有时值得采用一种特定的方法,因为这是一本特别好的书所采用的方法。
我同意贝叶斯统计更直观。置信区间与可信区间的区别非常概括:人们自然会根据“有什么机会……”而不是置信区间方法来思考。置信区间方法听起来很像它所说的与可信区间相同的东西,除了一般原则上你不能从“95% 的时间”到“95% 的机会”的最后一步,这似乎非常频繁,但你做不到。这并不矛盾,只是不直观。
平衡这一点的事实是,他们将参加的大多数大学课程将使用不太直观的常客方法。
也就是说,我真的很喜欢Richard McElreath所著的《 Statistical Rethinking: A Bayesian Course with Examples in R and Stan 》一书。它并不便宜,所以请在购买之前阅读它并在亚马逊上四处逛逛。我发现它是一种特别直观的方法,它利用了贝叶斯方法,并且非常实用。(而且由于 R 和 Stan 是贝叶斯统计的优秀工具,而且它们是免费的,所以这是实用的学习。)
编辑:有几条评论提到这本书可能超出了高中生的范围,即使有经验丰富的导师也是如此。所以我必须提出一个更大的警告:它一开始有一个简单的方法,但很快就开始了。这是一本了不起的书,但你真的,真的必须在亚马逊上浏览它,才能了解它最初的假设以及它的发展速度。美丽的类比,在 R 中的出色实践工作,令人难以置信的流程和组织,但可能对你没有用。
它假定您具备编程和 R(免费统计软件包)的基本知识,以及一些概率和统计基础知识。这不是随机访问,每一章都建立在前几章的基础上。它开始时非常简单,尽管难度确实在中间逐渐增加——它以多级回归结束。因此,您可能想在 Amazon 上预览其中的一些内容,并决定您是否可以轻松涵盖基础知识,或者它是否跳得太远了。
编辑 2:我在这里的贡献并试图从纯粹的观点中改变它的底线是,一本好的教科书可能会决定你采取哪种方法。我更喜欢贝叶斯方法,这本书做得很好,但速度可能太快了。
我首先学会了频率论方法,然后是贝叶斯方法。我不是专业的统计学家。
我不得不承认,我没有发现我对频率论方法的先验知识对理解贝叶斯方法有决定性的帮助。
我敢说,这取决于接下来你将向学生展示哪些具体的应用程序,以及你将在这些应用程序上花费多少时间和精力。
话虽如此,我将从贝叶斯开始。