我正在阅读这篇论文,他们在其中陈述了以下内容:
与 Graph WaveNet 相比,我们还使用 T-Test 来测试 GMAN 在提前 1 小时预测中的重要性。p 值小于 0.01,这表明 GMAN 在统计上优于 Graph WaveNet。
在这种情况下,“模型 A 在统计上优于 B”是什么意思?又该如何选择p值阈值呢?
我正在阅读这篇论文,他们在其中陈述了以下内容:
与 Graph WaveNet 相比,我们还使用 T-Test 来测试 GMAN 在提前 1 小时预测中的重要性。p 值小于 0.01,这表明 GMAN 在统计上优于 Graph WaveNet。
在这种情况下,“模型 A 在统计上优于 B”是什么意思?又该如何选择p值阈值呢?
大多数模型拟合是随机的,因此每次训练都会得到不同的参数,而且通常不能说一种算法总能提供性能更好的模型。
但是,由于您可以多次重新训练以获得模型的分布,因此您可以使用诸如T-Test之类的统计测试来表示“算法 A 通常会产生比算法 B 更好的模型”,这就是他们所说的“在统计上优于。”
p 值通常由该领域的共识设定。p 值越高,您对所比较的值的分布之间存在统计差异的信心就越低。0.1 在收集数据非常昂贵的领域(例如对人类的风险长期研究)可能是正常的,但在机器学习中,重新训练 0.01 很常见的模型通常很容易,并且表现出非常高的置信度。要了解有关选择和解释值的更多信息,我推荐维基百科的统计显着性页面。