统计上显着的相关性是否总能提供预测能力?

机器算法验证 相关性 p 值 异常检测
2022-03-23 05:16:58

假设您正在尝试预测异常。也就是说,考虑这样一种情况,您有一个数据集,其中有一个名为result的列。假设数据集有 365 行,结果只有 12 行的值为 1,其他行的值为 0。

现在假设您在数据集中有另一列称为val1进一步假设结果val1之间相关性的 p 值很小(比如 < 0.05)。请注意,我正在使用R cor.test method进行测量。

这是否意味着我们应该能够在给定val1值的情况下稍微准确地预测result的值?

我天真地认为它确实如此,并使用逻辑回归进行预测,但得到了非常糟糕的 F1 结果。(基本上,逻辑回归模型总是预测结果为 0,因此没有真阳性。)

3个回答

在回归中,系数的 p 值是对相关性进行假设检验的结果,零假设是相关性等于 0。具有统计上显着的相关性仅意味着我们的 p 值很小;而一个非常小的 p 值意味着我们可以非常确定相关性不为零。但是,请注意,确保相关性不为零并不能告诉我们相关性有多大——而且它可能非常小。

一个非常小的 p 值和一个小的相关性只是告诉我们,我们可以确定我们的自变量解释了我们响应的一小部分方差,因此它的预测能力非常小。

总而言之,可以获得具有统计显着性且非常小的相关性。除了可能之外,当我们有大量样本时,这很常见。


编辑补充:这只是一个相当普遍的现象,即得到一个统计显着性大但实际意义很小的结果,这种现象经常发生在样本量大的情况下。

例如,在进行 t 检验以评估药物是否会降低患癌症的概率时,我们可能会得到大于零的降低的 p 值为 0.00001,同时我们估计概率降低 0.000000001%。我们可以非常确定癌症的概率会降低(基于我们的 p 值),但出于任何实际目的,这种降低是如此之小,以至于我们可以看到药物没有效果。

与相关性相同:小 p 值和小相关性使我们确信相关性存在但它很小。然而,有时相关性大到足以具有实际意义(自变量解释了因变量方差的很大一部分),但不足以具有预测能力。

不。相关性衡量两个变量之间的线性关系,所以如果关系不是线性的,它就变得毫无用处。您可以轻松生成变量高度相关的示例(r=0.58;p<0.001) 而回归线对此类数据的拟合远非“准确”。

与非线性数据的相关性

帖子晚了,但为了帮助后代,我会做出回应。简而言之,答案是否定的。统计显着性并不能告诉研究人员有关模型预测能力的任何信息。

p 值的定义清楚地说明了这一点。p 值表示在假设原假设为真的情况下,研究人员观察给定数据集的可能性有多大。因此,即使您拒绝空值,您也真的无法说出哪个模型更擅长预测,只能说您观察到的结果或多或少可能会出现空值。一个非常常见的错误是,人们认为拒绝 null 意味着替代方案是更好的模型,但事实并非如此。

也许更完整的答案是:p 值不是模型比较的有效指标。为了有效地比较模型,您需要 AIC 或 BIC 等方法。也可以完全抛弃频率论并使用贝叶斯估计技术来构建贝叶斯因子,这将允许您比较模型。

最后(也是一些有争议的)对 p 值的评论。考虑到这一点,给定足够的数据,您将获得意义。这是由于零假设的(愚蠢的)性质,它表明效果正好为零。在绝大多数情况下,这几乎肯定不是真的。会有一些非零效应,只是一个小效应。因此,p 值阈值在实践中所做的就是设置总是可以用足够的数据满足的稻草人要求。因此,鉴于您总是可以实现显着性,因此 p 值并不能真正告诉您有关模型性能的任何信息也就不足为奇了。据我所知,他们真的什么都没有告诉你。作为科学家,我们关心估计和预测,而 p 值也无助于我们……