我们想远离意义吗?

机器算法验证 统计学意义 p 值 模型选择 直觉
2022-03-11 19:08:18

最近我发现许多统计学家都在谈论远离重要性。
我知道许多研究的结论都是基于 p 值,我同意这有时会产生误导。如果我们使用显着性,诸如样本量之类的东西会在结果中发挥重要作用。

我被教导在拟合 ARIMA 模型时使用重要性。例如,当一个参数的 p 值 > 0.05 时,它被认为是微不足道的,应该从模型中排除。这是我被教导拟合模型的方式。这也适用于回归。

既然我们想摆脱重要性,我们是否使用像 MSE 这样的指标来代替?我还发现越来越多的人开始使用置信区间而不是进行假设检验。

这个答案有很大帮助,但我仍然不明白我们将如何选择模型?
我们宁愿执行交叉验证并使用自举进行模型选择,而不是查看重要性?(我认为这可能是回答我的问题的一部分)。

2个回答

警告悲观/愤世嫉俗的帖子

我们不想离开意义。

这是导致您的问题的错误前提。

最近我发现许多统计学家都在谈论远离重要性。

..

既然我们想远离意义...

我们不想离开意义。意义很重要。它是一个指标,表明数据集足够大/足够显着,以便由于随机噪声而不太可能出现某些观察到的效果。我们仍然希望实验者瞄准意义重大的实验。那些可能反映噪声的微不足道的实验不是很有用;结果的解释是不确定的(它是“真实”的效果还是噪音?)。显着性意味着实验能够给出具有相对更确定的解释的结果(结果可能不是噪音,而是对原假设的一些真实的证伪)。

一个有意义的问题是在错误的研究重点。

我们想要摆脱的是科学的趋势,即为了重要而执行和报告实验。重要性的问题在于它可能是假的。显着性的表达仅与用于计算它的模型一样好。

这意味着,即使显着性意味着鉴于目前的假设预测没有影响,它不太可能发生,但研究人员很可能会在不存在的情况下找到重要的结果。

这使得我们现在有一个关于研究数据的报告,只有很小的影响。如果某件事有很大的影响,那么它很可能已经被证明了。但是,我们现在拥有一支庞大的热心(和压力)科学家大军,他们试图找到新的东西,所以他们将专注于一些(任何)小的东西,并通过做一个重要的实验让它变大。

一个重要的问题是在仅基于实验中发生的错误来表达实验之间发生的错误的方法中。

当前的实验性科学“世界”正受到这些激励措施的推动,以发表有意义的文章(无关紧要)而不是有意义的文章。问题在于,由于技术的发展,我们已经能够扩大实验工作的规模并进行大规模测试,从而使微小的影响显着可见。这将重点放在寻找人口分布参数的微小差异(这对许多研究人员来说是资源丰富的利基),而这些人口中的个体有更多的变化和差异。

我们关注的是平均值,而不是具体/个人,因为平均值之间的差异,无论多么小,都可以很容易地变得显着(实际上并不总是那么容易,但原理很简单,它只是增加了测试)。

例如:假设我们对巴黎 1 万名男性和柏林 1 万名男性的身高进行抽样。如果我们找到分布均值和标准差的近似值(μ=173.31cm,σ=5.29cm)在巴黎和(μ=173.09cm,σ=5.74cm)在柏林,那么 t 检验可能会让我们得出结论,我们发现了显着的影响,巴黎的男性平均身高高于柏林。

但是请看下面(组成)样本的直方图。分布大致相同;由于较大的散布/方差,我们可能会认为均值的微小差异并不那么重要(而且我们在表达标准误差时应该小心,因为该方法可能对较小的影响具有相对较大的影响)。只有大样本才能使我们对标准误差的估计非常小,因此我们得出结论认为存在显着差异。然而,对于如此微小的差异,我们无法真正了解这种差异是否归因于导致柏林人与巴黎人不同的真实效果,

直方图示例

的区别173.31173.09=0.22如果您只是充分采样(增加您的“放大倍数”或“研究能力”),则可能对于某些给定的实验具有统计学意义。但是人口之间的差异非常小,这使得简化关于分布的假设不再可以忽略不计。当你只是想比较手段时是正确的(你可能想知道它是否真的是最有用的,但是嘿,这是我们可以做的重要的事情)。对于比较均值,样本均值将接近正态分布,因此关于基本人口分布的假设无关紧要。然而,当你进入这些微小的影响时,采样和其他系统影响可能会成为一个问题。

所有模型都是错误的,但有些模型是有用的关于重要性的表达是估计,通常是错误的,但通常不是那么糟糕,因此仍然有用。它们并不是那么糟糕,因为抽样误差主导系统误差的假设通常有效,而后者可以忽略不计。然而,最近,这些(以前)用于估计误差的有用模型变得越来越不正确,越来越没用。这是因为越来越多的研究能够放大发生在变异较大的人群中的小影响。通过增加采样大小可以放大微小的影响。但是当我们看到小的影响和小的采样噪声(由于大样本)时,系统误差就不能再忽略了。

型号选择

我们将如何选择模型?

如果您测量微小的影响,并纯粹通过增加样本量使它们显着,那么您不再确定确定的影响是由于空模型中的差异造成的,它也可能是抽样程序(当显着性检验失败时我们倾向于说原假设是证伪的,但我们应该说原假设加上实验是证伪的。但是我们通常不会这么说,因为对于足够大的效应,我们倾向于忽略系统效应)。

因此,显着性通常根据样本数据中的方差/残差来确定(通过估计我们单个数据中测量值的分布实验)。但是,假设这是对结果误差的良好估计是错误的(尤其是在确定小的影响时)。我们还应该估计/猜测/假设我们的仪器/方法从实验到实验的变化。这实际上是我在高中物理课上学到的。没有提到计算标准偏差的公式和基于实验的误差估计,但我们不得不对误差做出合理的逻辑猜测(例如,当使用一些容量玻璃器皿测量一定体积的水时,我们使用了一些经验法则,例如误差是刻度最小刻度的 1/10)。

重要性并不是模型选择的真正工具。显着性是假设检验和验证可能源自此类检验的结论的(统计)有效性的工具(结论应该以合理的概率,不是由随机噪声引起的)。

通过显着性检验,您通常会偏爱零假设/模型。实验的目标不是模型选择,而是模型拒绝进行显着性检验以试验/测试原假设是否正确(并且通常在事后使用替代假设进行测试,以便如果特定替代假设为真,则该测试具有很高的概率/能力来拒绝原假设)。

在这类试验中,您确实会遇到这样的情况,即可能有多个模型可以用来检验零假设,并且想法可能是看看哪些模型最有意义。这确实类似于很多模型选择,并且这些概念可以以混合方式执行,但从我的角度来看,它们不应被视为混合。例如,可以测试多个因素并查看其中任何一个是否具有显着影响。您可以将其视为模型选择,查看哪个因素是最佳模型......但是,原则上更像是执行多个零假设检验(每个假设都是特定因素没有影响)。

模型选择是一种优化,可以在没有意义的情况下进行计算(如果您有适当的损失函数)。如果您正在做一些优化,例如预测,那么自举可能确实是一种很好的方法,不仅可以测试估计的方差,还可以测试偏差。

这太长了,不能成为评论,但只是为了补充 Sextus 的出色回答,“重要性”的一个问题是重要性水平的任意性质。通常,这些都是由特定领域的常见做法决定的。

此外,当研究人员进行测试并发现 p 值为 0.0499999 时,他们可能声称发现了显着的结果,而另一位进行相同研究的研究人员可能会发现 sa 的 p 值为 0.0500001 并得出结论认为没有显着影响. 也许他们拟合了相同的模型,但他们的数据集之间的唯一区别是“重要”的模型多了一个观察结果。我认为,实际上这些结果是相同的。如果您接受这些结果实际上是相同的,那么您将在哪里划定它们实际上一样的界限。这也是我一开始就避免使用显着性水平的原因之一。

p 值和使用显着性水平作为整体分析策略的一部分没有任何问题,但至少可以说,仅在此基础上提出主张或证明删除或保留变量是正确的。与此相关的另一个问题是,研究人员通常并不真正了解 p 值是什么,尤其是在频率统计中,因此通常将它们解释为“零假设为真的概率”之类的东西或者“结果是偶然的概率”,甚至是“研究假设错误的概率”。因此,如果有人有这种误解,那么盲目地遵循一些“既定惯例”可能会加剧他们的误解。

最后,我不喜欢显着性水平测试的另一个原因是它允许分析师不思考。他们可以简单地遵循惯例并做出结论。这可能非常危险。

所以总而言之,我不认为我们应该远离意义,但我们不应该把它当作教条。