如何使用统计显着性比较两个不同模型的准确性

机器算法验证 时间序列 机器学习 统计学意义 分类 模型评估
2022-03-09 01:06:49

我正在研究时间序列预测。我有两个数据集D1={x1,x2,....xn}D2={xn+1,xn+2,xn+3,....,xn+k}我有三个预测模型:M1,M2,M3所有这些模型都是使用数据集D1中的样本进行训练的,并且它们的性能是使用数据集D2中的样本来衡量的。假设性能指标是 MSE(或其他任何东西)。D2测量时,这些模型的 MSEMSE1,MSE2,MSE3我如何测试一个模型相对于另一个模型的改进在统计上是显着的。

例如,假设MSE1=200MSE2=205MSE3=210D2中用于计算这些 MSE的样本总数为 2000。我如何测试MSE1MSE2MSE3是否存在显着差异. 如果有人能帮助我解决这个问题,我将不胜感激。

3个回答

上面的链接帖子之一提到使用似然比测试,尽管您的模型必须相互嵌套才能使其工作(即其中一个模型中的所有参数必须存在于您正在测试的模型中) .

RMSE 显然是衡量模型与数据拟合程度的指标。但是,似然比也是如此。陈女士说,一个特定人的可能性是具有她所有参数的人得到她所拥有的结果的概率。数据集的联合似然是陈夫人的似然 * Gundersen 夫人的似然 * Johnson 夫人的似然 * ... 等等。

我不认为添加协变量或任何数量的协变量并不能真正使似然比变得更糟。但它可以将似然比提高一个不显着的量。拟合得更好的模型将有更高的可能性。您可以正式测试模型 A 是否更适合模型 B。您应该在您使用的任何软件中都有某种 LR 测试功能,但基本上,LR 测试统计量是 -2 * 似然对数的差异,并且它是分布式卡方与 df = 数字差异的参数。

此外,比较两个模型的 AIC 或 BIC 并找到最低的一个也是可以接受的。AIC 和 BIC 基本上是因参数数量而受到惩罚的对数似然。

我不确定是否对 RMSE 使用 t 检验,除非您能找到该领域已经完成的一些理论工作,否则我实际上会反对它。基本上,你知道 RMSE 的值是如何渐近分布的吗?我不知道。这里有一些进一步的讨论:

http://www.stata.com/statalist/archive/2012-11/index.html#01017

这个答案没有考虑到您的数据形成时间序列这一事实,但我认为这不是问题。

使用 RMSE 时,这篇文章建议使用 t 检验: Testingsignificance of RMSE of models

您还可以使用 Pearson 相关性来评估您的适合度。根据这篇文章,您可以使用 Wolfe 的 t 检验:相关性增加的统计显着性

我目前正在尝试了解同样的问题。我自己会很感激更详细的答案。

有两种主要方法可以做到这一点,但首先我将挑战您只想选择一种的想法。最有可能的是,三个独立模型的集成模型将获得最好的性能。

主要的,也许是最好的方法是使用模型来获得围绕评估指标的置信区间。这通常通过引导或泊松引导)来完成。

另一种方法是使用统计检验。每个测试都会做出不同的假设,这些假设通常用于比较从分布中获取的值或样本,而不是单点评估。许多这些统计测试正式要求独立性,在比较同一模型的多个结果或时间序列数据的多个模型时通常不具备独立性。

特别是时间序列预测,您应该使用交叉验证进行回测,并在每次评估训练和测试错误(示例)。当你这样做时,我怀疑你的模型会表现得如此相似,以至于你需要一个统计测试来区分;最有可能的是,您会看到很大的差异。

另请注意,仅历史评估指标(将实际值与预测值进行比较)不足以进行预测评估。给定两个完全符合已知历史数据的预测,但一个也符合对未来的先前信念,而另一个明显违反(例如,如果一个消失为零但你有理由相信这不可能发生),你会更喜欢这个预测更好地匹配您的先前。