为什么统计显着性随着数据的增加而增加,但效果可能没有意义?

机器算法验证 假设检验 直觉
2022-03-28 21:18:43

读过“当你获得越来越多的数据时,无论你看哪里,你都可以发现统计上的显着差异”

我的问题是:

  1. 为什么会这样?(任何显示这种行为的直观示例?)
  2. 为什么统计差异的这种增加并不一定意味着观察到的效果是有意义/重要的
4个回答

我认为这是因为在现实世界中,您并不真正期望标准零假设为真。如果您要比较两个总体的均值,则原假设说,即两个均值完全相等。然而,在许多情况下,更准确的零假设会说几乎相等(无论这意味着什么)。μ1=μ2μ1μ2

对于小样本量,如果测量的差异“相对”大,则均值之间的差异只会给出较低的 p 值。然而,对于足够大的样本量,即使平均值的微小差异也可能具有统计学意义,即使出于实际目的,这些数字是相同的。

对于这个问题,这里也有一些很好的信息:

为什么“统计显着”还不够?

我读过“当你获得越来越多的数据时,无论你看哪里,你都可以发现统计上的显着差异”

这并不总是正确的,但是如果您的零假设是两组人完全 100% 相同,那么它就是,因为该零假设几乎总是或总是错误的。相反,如果您的零假设是光速为 299,792,458 m/s,并且您在没有使用偏向于在一个方向或另一个方向上产生测量误差的工具的情况下多次测量,那么您不太可能获得显着性。

为什么会出现这种情况?(任何显示这种行为的直观示例?)

如果是这种情况,那是因为原假设是错误的,或者是测量工具有一些偏差。

为什么统计差异的这种增加并不一定意味着观察到的效果是有意义/重要的?

因为非常小的差异很可能是由除您进行实验来测试的原因之外的其他原因引起的(例如测量设备的问题,组间的基线差异),并且无法猜测发生了什么。请注意,即使效果很大,情况总是如此,但如果除自变量之外的所有因素都不太可能观察到较大的效果(据我所知,这是“手波”,但直观上很明显)保持相对恒定。

此外,非常小的差异通常不会提供任何理由根据结果采取行动。执行该操作的成本通常会超过收益。

编辑: 另一件事是,显然在理论预测的零假设的情况下,一个不显着的结果很重要,因为你的理论已经得到证实。即使在更常见的“总是错误的”零假设的情况下,“不显着”的数据结果也可能是有意义的。缺乏显着性,特别是对于大样本量,告诉您任何影响/差异相对于背景噪声都很小。我想说忽略不重要结果的做法存在严重缺陷。

我还想强调的是,即使有几乎无限的数据,你也不会总能找到具有统计意义的结果。统计上显着的结果仅代表可能是真正的差异,无论大小。如果不存在这种差异,则案例数量无关紧要。考虑平均高度完全相同的 1000 万棵树的两个样本。拥有 2000 万棵树的整体样本永远不会导致差异具有统计学意义。当结果具有统计学意义时,评估效应的大小始终很重要。结果在您正在探索的范围内很重要/有意义。重要性将始终取决于。考虑鞋码时,1% 的差异可能非常不重要,

当您增加样本量时,您不一定总是会发现显着差异,但它变得越来越可能。正如一些人所指出的,真正相同的样本可能不会导致显着差异。它所做的是使非常非常小的差异更有可能被检测到——我们在现实世界中无法以任何有意义的方式真正采取行动。

例如,如果我告诉你一组的平均智商是 100.0001,而另一组的平均智商是 100.0002,你真的可以将第二组视为“更聪明”(考虑到所有关于 IQ 作为智力衡量标准的警告)吗?

我将使用我自己工作中的一个例子:我正在模拟医院的干预措施,以帮助防止患者患上特定疾病。我的数据集是一些模拟的接受治疗的医院,以及一些没有接受治疗的医院。

它们之间的差异具有统计学意义,而且非常显着。完全是因为“不治疗”医院有一些感染病例略多的例子。但在最有意义的方面,这两条手臂是相同的。他们的病例中位数相同,最小值相同,第 75 个百分位数相同,病例数达到 95 个百分位数,甚至 99 个百分位数。其重要性完全是由分布极端的一些边缘情况驱动的……以及大样本量。

在现实世界中,治疗的效果是完全无法察觉和毫无意义的。但是因为我的样本量很大,所以它具有统计学意义。如果我希望它更有效,我可以去吃晚饭,让模拟运行更长时间,但这不会使干预更有效。