机器算法验证 - ARIMA参数标准误的解释 - 吾爱随笔录

ARIMA参数标准误的解释

机器算法验证有马标准错误

2022-03-24 08:21:50

在评估模型时，我无法理解参数估计值及其标准误差告诉我们什么。例如，这是我在 R 中创建的 Arima(2,1,0) 模型的估计值：

Coefficients:
         ar1      ar2
      1.0251  -0.1781
s.e.  0.2204   0.2193

我听说过诸如“ar1 很重要，因为它的估计值是 se 的两倍多”之类的东西，但我不明白为什么这个标准使它“好”。按照这个逻辑，包含第二个参数看起来不太好。

那么参数究竟是如何分布的，我们如何解释它们的估计值和标准误差呢？

1个回答

估计的 AR 参数的标准误差与任何其他估计的标准误差具有相同的解释：它们是（估计）其抽样分布的标准偏差。

这个想法是存在一些未知但固定的基础数据生成过程（DGP），由未知但固定的 ARIMA 过程控制。您观察到的特定时间序列是此过程的单一实现。如果你现在去采样这个 DGP 产生的许多时间序列，那么由于不同的创新，它们看起来都会有些不同。但是，您可以将 ARIMA 模型拟合到所有这些模型。然后，您当然会为每个时间序列获得不同的 AR 参数估计值。

AR 估计的标准误差是这些 AR 估计的标准差的估计。

模拟可能会有所帮助。下面，我将使用带参数的 AR(2) 模型 $(1.0,-0.2)$ . 我将使用此模型生成长度为 100 的时间序列，然后拟合 AR(2) 模型，存储 AR 参数估计值 - 并重复 10,000 次。最后，我绘制了参数估计的直方图，加上红色垂直线的实际值 - 然后将 AR 参数估计的标准偏差与估计的标准误差（平均值）进行比较。而且两人一拍即合。

nn <- 100
n.sims <- 10000
true.model <- list(ar=c(1.0,-0.2))

params <- ses <- matrix(NA,nrow=n.sims,ncol=length(true.model$ar))
for ( ii in 1:n.sims ) {
	set.seed(ii)
	series <- arima.sim(model=true.model,n=nn)
	model <- arima(series,order=c(2,0,0),include.mean=FALSE)
	params[ii,] <- coefficients(model)
	ses[ii,] <- sqrt(diag(model$var.coef))
}

opar <- par(mfrow=c(1,2))
    for ( jj in seq_along(true.model$ar) ) {
		hist(params[,jj],col="grey",xlab="",main=paste0("AR(",jj,") parameter"))
		abline(v=true.model$ar[jj],lwd=2,col="red")
    }
par(opar)

apply(params,2,sd)
# [1] 0.09844388 0.09795008
apply(ses,2,mean)
# [1] 0.09754488 0.09833490

请注意，我使用零均值进行模拟，并明确告知arima()不要使用均值。并且整个练习关键取决于我们肯定知道 ARIMA 订单的假设！如果我们首先需要选择正确的顺序，那么一切都会有偏差，标准误就会失去解释。（是的，这种做法让这一切都成为了某种理论性和学术性的练习。）

如果你想更深入地研究数学，任何数学时间序列教科书都应该做得很好。（标题中带有“业务”的任何内容都可能掩盖这些细节。）我最近浏览了 Brockwell 和 Davies 的《时间序列：理论和方法》（2006 年），看起来不错，但我想不起来这个主题是否是在那里的任何深度进行处理。

其它你可能感兴趣的问题

上一篇从或根据分布对数据点进行采样意味着什么？下一篇贝叶斯神经网络的缺点是什么？