自相关时间的定义(对于有效样本量)

机器算法验证 r 时间序列 相关性
2022-01-16 10:23:11

我在文献中发现了弱平稳时间序列的自相关时间的两个定义:

τa=1+2k=1ρkversusτb=1+2k=1|ρk|

其中是滞后处的自相关。 ρk=Cov[Xt,Xt+h]Var[Xt]k

自相关时间的一种应用是找到“有效样本量”:如果你有一个时间序列的,那么你可以假设你有nτ

neff=nτ

独立样本,而不是相关样本,以求均值。从数据中估计并非易事,但有几种方法可以做到这一点(参见Thompson 2010)。nτ

没有绝对值的定义在文献中似乎更常见;但它承认的可能性。使用 R 和“尾声”包:τaτa<1

require(coda)
ts.uncorr <- arima.sim(model=list(),n=10000)         # white noise 
ts.corr <- arima.sim(model=list(ar=-0.5),n=10000)    # AR(1)
effectiveSize(ts.uncorr)                             # Sanity check
    # result should be close to 10000
effectiveSize(ts.corr)
    # result is in the neighborhood of 30000... ???

"coda" 中的 "effectiveSize" 函数使用与等价的自相关时间的定义。还有一些其他的 R 包可以计算有效样本大小或自相关时间,我尝试过的所有包都给出了与此一致的结果:具有负 AR 系数的 AR(1) 过程具有比相关的有效的样本时间序列。这似乎很奇怪。 τa

定义中永远不会发生。τb

自相关时间的正确定义是什么?我对有效样本量的理解有问题吗?上面显示的结果似乎一定是错误的......这是怎么回事?neff>n

2个回答

首先,“有效样本量”的适当定义与 IMO 与一个非常具体的问题相关联。如果同分布,均值和方差 1,则经验均值 但是它的方差呢?对于变量,方差为对于弱平稳时间序列,的方差为 X1,X2,μ

μ^=1nk=1nXk
μn1μ^
1n2k,l=1ncov(Xk,Xl)=1n(1+2(n1nρ1+n2nρ2++1nρn1))τan.
该近似值对足够大的有效。如果我们定义,则弱平稳时间序列的经验均值的方差约为,这是相同的方差好像我们有独立样本。因此,如果我们要求经验平均值的方差,则它可能不适用于其他目的。nneff=n/τaneff1neffneff=n/τa

由于观测值之间存在负相关,因此方差肯定有可能变得小于 ( )。这是Monto Carlo积分中众所周知的方差减少技术:如果我们在变量之间引入负相关而不是相关0,我们可以在不增加样本量的情况下减少方差。n1neff>n

http://arxiv.org/pdf/1403.5536v1.pdf

https://cran.r-project.org/web/packages/mcmcse/mcmcse.pdf

为有效的样本量。我认为通过批次均值使用样本方差和渐近马尔可夫链方差之比的替代公式是更合适的估计量。