当一个模型“在统计上优于”另一个模型时,这意味着什么?

人工智能 深度学习 术语 文件 统计数据
2021-11-07 03:14:10

我正在阅读这篇论文,他们在其中陈述了以下内容:

与 Graph WaveNet 相比,我们还使用 T-Test 来测试 GMAN 在提前 1 小时预测中的重要性。p 值小于 0.01,这表明 GMAN 在统计上优于 Graph WaveNet。

在这种情况下,“模型 A 在统计上优于 B”是什么意思?又该如何选择p值阈值呢?

1个回答

大多数模型拟合是随机的,因此每次训练都会得到不同的参数,而且通常不能说一种算法总能提供性能更好的模型。

但是,由于您可以多次重新训练以获得模型的分布,因此您可以使用诸如T-Test之类的统计测试来表示“算法 A 通常会产生比算法 B 更好的模型”,这就是他们所说的“在统计上优于。”

p 值通常由该领域的共识设定。p 值越高,您对所比较的值的分布之间存在统计差异的信心就越低。0.1 在收集数据非常昂贵的领域(例如对人类的风险长期研究)可能是正常的,但在机器学习中,重新训练 0.01 很常见的模型通常很容易,并且表现出非常高的置信度。要了解有关选择和解释值的更多信息,我推荐维基百科的统计显着性页面