人工智能 - 当一个模型“在统计上优于”另一个模型时，这意味着什么？ - 吾爱随笔录

当一个模型“在统计上优于”另一个模型时，这意味着什么？

人工智能深度学习术语文件统计数据

2021-11-07 03:14:10

我正在阅读这篇论文，他们在其中陈述了以下内容：

与 Graph WaveNet 相比，我们还使用 T-Test 来测试 GMAN 在提前 1 小时预测中的重要性。p 值小于 0.01，这表明 GMAN 在统计上优于 Graph WaveNet。

在这种情况下，“模型 A 在统计上优于 B”是什么意思？又该如何选择p值阈值呢？

1个回答

大多数模型拟合是随机的，因此每次训练都会得到不同的参数，而且通常不能说一种算法总能提供性能更好的模型。

但是，由于您可以多次重新训练以获得模型的分布，因此您可以使用诸如T-Test之类的统计测试来表示“算法 A 通常会产生比算法 B 更好的模型”，这就是他们所说的“在统计上优于。”

p 值通常由该领域的共识设定。p 值越高，您对所比较的值的分布之间存在统计差异的信心就越低。0.1 在收集数据非常昂贵的领域（例如对人类的风险长期研究）可能是正常的，但在机器学习中，重新训练 0.01 很常见的模型通常很容易，并且表现出非常高的置信度。要了解有关选择和解释值的更多信息，我推荐维基百科的统计显着性页面。

其它你可能感兴趣的问题

上一篇强化学习可以分为哪些子类别？下一篇怎么ΔΔ在真正的在线TD中更新（λλ)?