统计中有哪些不合时宜的做法的例子?

机器算法验证 参考 哲学的
2022-01-30 05:58:47

我指的是仍然保持其存在的实践,即使它们旨在应对的问题(通常是计算性的)已经大部分得到解决。

例如,发明了 Yates 的连续性校正以用检验逼近 Fisher 的精确检验,但它不再实用,因为软件现在可以处理大样本的 Fisher 检验(我知道这可能不是“保持其存在”,因为像 Agresti 的分类数据分析这样的教科书经常承认 Yates 的修正“不再需要”)。χ2

这种做法还有哪些其他例子?

4个回答

使用阈值显着性水平(例如)是大多数研究人员依赖先前计算的临界值表的时期的历史遗留问题,这一点非常有争议。现在好的软件会直接给出值。事实上,好的软件可以让您自定义您的分析,而不是依赖于教科书测试。P=0.05P=0.01P

这是有争议的,因为某些重要性测试问题确实需要决策,例如在质量控制中,接受或拒绝批次是需要的决策,然后采取任何一种方式采取行动。但即便如此,要使用的阈值也应该源于风险分析,而不是依赖于传统。通常在科学中,定量指标分析比决策更合适:定量思考意味着关注值的大小,而不仅仅是粗略的二分法,显着与不显着。P

我要指出,我在这里触及了一个错综复杂且有争议的问题,这是整本书和可能数千篇论文的焦点,但这似乎是这个线程的一个很好的例子。

我认为该网站的许多访问者都会同意我的一种方法是逐步回归。它仍然一直在做但你不必在这个网站上搜索很远的专家说对它的使用感到遗憾。像 LASSO 这样的方法更受欢迎。

我的观点是,至少在(应用)计量经济学中,使用稳健或经验协方差矩阵而不是依赖(渐近地)正确规范协方差矩阵的“不合时宜的做法”越来越成为常态。这当然不是没有争议的:请参阅我在 CrossValidated 上链接的一些答案,但这肯定是一个明显的趋势。

示例包括异方差稳健标准误差(Eicker-Huber-White 标准误差)。一些研究人员,如Angrist 和 Pischke 显然建议始终使用异方差稳健标准误差而不是“不合时宜”的过程来使用正常标准误差作为默认值,并检查假设是否合理。E[uu]=σ2In

其他示例包括面板数据,Imbens 和 Wooldridge 例如在他们的演讲幻灯片中写道,反对使用随机效应方差协方差矩阵(隐含地假设方差分量中的一些错误指定为默认值):

完全稳健的推理是可用的,通常应该使用。(注意:通常的 RE 方差矩阵,仅取决于,不需要正确指定!在估计中使用它仍然有意义,但使推理稳健。)σc2σu2

使用广义线性模型(对于属于指数族的分布),通常建议始终使用所谓的三明治估计器,而不是依赖正确的分布假设(这里的不合时宜的做法):例如参见这个答案Cameron 指对数据进行计数,因为在指定错误的情况下伪最大似然估计可以非常灵活(例如,如果负二项式是正确的,则使用泊松)。

必须对泊松回归进行这种 [White] 标准误差校正,因为它们可以比 OLS 的类似异方差校正产生更大的差异。

格林在他的教科书第 14 章(可在他的网站上获得)中写道,例如,带有批判性注释,并更详细地介绍了这种做法的优缺点:

当前文献中有一种趋势是常规计算此 [三明治] 估计量,而不管似然函数如何。* [...] *我们再次强调,三明治估计量本身不一定是任何如果似然函数被错误指定并且 M 估计量的其他条件不满足,则美德。

大多数不合时宜的做法可能是由于教授统计学的方式以及分析是由大量只上过几门基础课程的人进行的。我们经常教授一套标准的统计思想和程序,因为它们形成了一个不断增加的概念复杂性的逻辑序列,这在教学上是有意义的(参见,我们如何知道总体方差?)。我自己对此感到内疚:我偶尔会教 101 和 102 的统计数据,并且我经常说,'有更好的方法可以做到这一点,但这超出了本课程的范围'。对于那些没有继续超越介绍顺序的学生(几乎所有),他们只剩下基本的但被取代的策略。

  1. 对于 stats 101 示例,可能最常见的不合时宜的做法是测试一些假设,然后运行传统的统计分析,因为测试不显着。一种更现代/先进/可辩护的方法是从一开始就使用一种对该假设具有鲁棒性的方法。一些参考资料以获取更多信息:

  2. 对于 stats 102 示例,任何数量的建模实践都已过时:

    • 转换以实现残差的正态性以获得可靠的值与自举。 Yp
    • 转换以实现同方差性,而不是使用三明治估计器等。 Y
    • 使用高阶多项式来捕获曲率与三次样条。
    • 值和样本内拟合优度(如)而不是交叉验证来 评估用于预测的模型。pR2
    • 使用重复测量数据,对连续变量进行分类,以便可以使用 rmANOVA 或平均多次测量与使用线性混合模型。
    • 等等。

所有这些案例的重点是,人们正在做入门课中首先教授的内容,因为他们根本不知道更高级和更合适的方法。