没有假设检验的统计数据

机器算法验证 假设检验 贝叶斯 常客
2022-03-30 03:46:48

在他的博客文章中,Andrew Gelman 说他不喜欢贝叶斯假设检验(见这里:http ://andrewgelman.com/2009/02/26/why_i_dont_like/ ),如果我没记错的话,我认为他还说频率论假设检验也有缺点。

我的问题是:你可以在没有假设检验的情况下进行统计,即使是(抱歉重复)假设检验并做出决定?解决方案是否仅依靠估计并根据估计的概率做出决策?如果是这样,你能指出在哪里了解这个吗?

2个回答

让我冒昧地把这个问题改写为“Andrew Gelman 提出的反对假设检验的论点是什么?”

帖子中链接的论文中,作者对使用机械程序进行模型选择提出了质疑,或者,正如他们所说:

[Raftery] 承诺不可能:选择适合特定目的的模型,而不考虑这些目的。

频率论或贝叶斯假设检验是这种机械程序的两个例子。他们批评的具体方法是BIC的模型选择,这与贝叶斯假设检验有关。他们列出了此类程序可能严重失败的两种主要情况:

  1. “数据过多”:假设您有一个回归模型,例如,有 100 个标准正态分布回归量。假设的第一个条目是并且所有其他条目都等于给定足够的数据,假设检验将得出所有对的估计都是“显着的”。这是否意味着我们应该在模型中包含如果我们有兴趣发现特征和结果之间的一些关系,我们最好考虑一个只有的模型吗?yi=βxi+ϵiβ11010βx2,x3,x100x1
  2. “数据不足”:在另一个极端,如果样本量非常小,我们将不太可能找到任何“重要”关系。这是否意味着最好使用的模型是不包含回归变量的模型?

这些问题没有一般的答案,因为它们取决于建模者在特定情况下的目标。通常,我们可以尝试根据与我们的目标函数更密切相关的标准来选择模型,例如,当我们的目标是预测时,交叉验证样本。然而,在许多情况下,基于数据的程序需要由专家判断来补充(或者通过使用贝叶斯方法和 Gelman 似乎更喜欢的精心选择的先验)。

假设检验(拒绝/接受)的 Neyman-Pearson 决策理论方法与Popper 的 Falsification密切相关。这种方法不是无效的,它只是没有适应人类对知识、产品和职业利益日益增长的消费欲望。

波普尔科学方法的有效性强烈地基于 1. 预先设定假设 2. 仅以足够的力量进行研究和 3. 以同等认真的态度消费正面/负面研究的结果。在过去的一个世纪里,我们(在学术界、商业界、政府、媒体等)都没有这样做。

费舍尔提出了一种“没有假设检验的统计数据”的方法。他从未建议将他的 p 值与 0.05 截止值进行比较。他说要报告 p 值,并报告研究的功效

许多人建议的另一种选择是仅报告置信区间 (CI)。这种想法是,强迫人们根据物理量而不是无单位量(如 p 值)来评估试验结果,会鼓励他们考虑更微妙的方面,如效果大小、可解释性和普遍性。然而,即便如此,这一趋势也趋于平缓:越来越多的趋势是检查 CI 是否超过 0(或比率尺度为 1),如果没有,则宣布结果具有统计显着性。蒂姆·拉什(Tim Lash)将此称为后门假设检验。

关于假设检验的新时代,存在曲折而无休止的争论。没有人没有解决我之前提到的贪婪。我的印象是我们不需要改变我们做统计的方式,我们需要改变我们做科学的方式。