为什么要继续教授和使用假设检验(包括所有困难的概念,并且是最统计的罪)来解决存在区间估计量(置信度、引导程序、可信度或其他)的问题?给学生最好的解释(如果有的话)是什么?只有传统?意见将非常受欢迎。
为什么要继续教授和使用假设检验(当置信区间可用时)?
这是我的个人观点,所以我不确定它是否适合作为答案。
我们为什么要教授假设检验?
简而言之,一个非常重要的原因是,很可能在您阅读这句话的时间里,在您坐的 10 英尺半径范围内进行了数百甚至数千(或数百万)次假设检验。
您的手机肯定是在使用似然比测试来确定它是否在基站范围内。您的笔记本电脑的 WiFi 硬件在与您的路由器通信时也是如此。
您用来自动重新加热两天前的比萨饼的微波炉使用假设检验来确定您的比萨饼何时足够热。
当您在结冰的道路上加油过多时,您的汽车的牵引力控制系统启动,或者轮胎压力警告系统让您知道您的后排乘客侧轮胎异常低,并且您的大灯在 5 点左右自动亮起:晚上 19 点,黄昏来临。
您的 iPad 正在根据(嘈杂的)加速度计读数以横向格式呈现此页面。
当“你”在德克萨斯州的百思买购买了一台平板电视,在华盛顿州购物中心的 Zales 购买了价值 2000 美元的钻戒时,你的信用卡公司关闭了你的信用卡,而这些钻石戒指在购买午餐、汽油和电影后的几个小时内在匹兹堡郊区的家附近。
为了在您的浏览器中呈现此网页而发送的数十万位每个都单独进行了假设检验,以确定它们最有可能是 0 还是 1(除了一些惊人的纠错)。
在那些“相关”主题上稍微向右看一下。
由于假设检验,所有这些事情都“发生”了。对于其中许多事情,可以计算一些参数的一些区间估计。但是,特别是对于自动化工业过程,假设检验的使用和理解至关重要。
在更理论的统计层面上,统计能力的重要概念相当自然地来自决策理论/假设检验框架。另外,我相信“即使”是纯数学家也能欣赏 Neyman-Pearson 引理及其证明的美丽和简单。
这并不是说假设检验被教导或理解得很好。总的来说,事实并非如此。而且,虽然我同意——特别是在医学科学领域——报告区间估计以及效应大小和实际与统计显着性的概念几乎普遍优于任何正式的假设检验,但这并不意味着假设检验和相关的概念本身并不重要和有趣。
我教授假设检验有很多原因。一个是历史性的,他们必须了解他们阅读的大量先前研究并理解假设检验的观点。第二个是,即使在现代,一些研究人员在进行其他类型的统计分析时仍然经常隐含地使用它。
但是当我教它时,我是在模型构建的框架中教它的,这些假设和估计是构建模型的一部分。这样,切换到比较更复杂和理论上有趣的模型相对容易。研究更多地是让理论相互对抗,而不是理论与什么都没有。
假设检验的罪恶不是数学固有的,也不是正确使用这些计算。它们主要存在的地方是过度依赖和误解。如果绝大多数天真的研究人员只使用区间估计,而没有认识到与这些事物的任何关系,我们称之为假设,我们可能会称之为罪过。
我个人觉得没有假设检验我们会更好。我能想到的唯一一个假设检验提供独特和有用的地方是在多自由度联合假设检验领域。示例包括用于比较两个以上组的 ANOVA、结合主效应和交互作用的同时检验(总效应检验),以及结合与连续预测变量相关的线性和非线性项的同时检验(关联的多重 df 检验)。值更容易,而且误导的可能性要小得多。正如经典论文Absence of evidence is not evidence of evidence 中所说的那样,大的值不包含任何信息。 -values 仅提供反对假设的证据,从不支持它(当被问及如何解释大 -value 时,Fisher 的回答是“获取更多数据”)。置信度或可信区间通过描述她不知道多少来使研究人员更加诚实。
我认为这取决于您在谈论哪种假设检验。“经典”假设检验(Neyman-Pearson)被认为是有缺陷的,因为它没有适当地以您进行检验时实际发生的情况为条件。相反,它的设计目的是“不管”你从长远来看实际看到了什么。但是,如果不进行条件处理,可能会在个别情况下导致误导性结果。这仅仅是因为从长远来看,程序“不关心”个别情况。
假设检验可以在决策理论框架中进行,我认为这是理解它的更好方法。您可以将问题重述为两个决定:
- “我会表现得好像是真的一样”
- “我会表现得好像是真的”
决策框架更容易理解,因为它清楚地将“你会做什么?”的概念分开。“真相是什么?” (通过您的事先信息)。
您甚至可以将“决策理论”(DT)应用于您的问题。但是为了停止假设检验,DT 说你必须有一个可供选择的决定。所以问题是:如果放弃了假设检验,那么取而代之的是什么?我想不出这个问题的答案。我只能想出替代方法来进行假设检验。
(注意:在假设检验的情况下,数据、抽样分布、先验分布和损失函数都是先验信息,因为它们是在做出决定之前获得的。)