平滑 - 何时使用,何时不使用?

机器算法验证 时间序列 平滑
2022-01-27 11:57:43

William Briggs 的博客上有一篇相当古老的文章,它着眼于平滑数据并将平滑数据进行分析的缺陷。关键论点是:

如果在精神错乱的时刻,您对时间序列数据进行了平滑处理,并将其用作其他分析的输入,那么您自欺欺人的可能性就会大大增加!这是因为平滑会产生虚假信号——在其他分析方法看来是真实的信号。无论如何你都会太确定你的最终结果!

但是,我正在努力寻找关于何时平滑和何时不平滑的全面讨论。

是否仅在使用该平滑数据作为其他分析的输入时不赞成平滑,或者在不建议进行平滑的情况下是否存在其他情况?相反,是否存在建议进行平滑的情况?

2个回答

指数平滑是用于非因果时间序列预测的经典技术。只要您仅在直接预测中使用它并且不使用样本内平滑拟合作为另一个数据挖掘或统计算法的输入,Briggs 的批评并不适用。(因此,正如维基百科所说,我对使用它“生成用于演示的平滑数据”持怀疑态度——这很可能会产生误导,因为它隐藏了平滑的可变性。)

这是一本关于指数平滑的教科书介绍。

这是一篇(已有 10 年历史,但仍然相关的)评论文章。


编辑:似乎对布里格斯批评的有效性有些怀疑,可能受到其包装的影响我完全同意布里格斯的语气可能很粗暴。但是,我想说明为什么我认为他有观点。

下面,我正在模拟 10,000 对时间序列,每对有 100 个观察值。所有系列都是白噪声,没有任何相关性。因此,运行标准相关性测试应该会产生在 [0,1] 上均匀分布的 p 值。就像它一样(左下角的直方图)。

但是,假设我们首先对每个系列进行平滑处理,并将相关性检验应用于平滑后的数据。出现了一些令人惊讶的事情:因为我们已经从数据中消除了很多可变性,所以我们得到的 p 值太小了我们的相关性测试有很大的偏差。因此,我们将过于肯定原始系列之间的任何关联,这就是布里格斯所说的。

问题实际上取决于我们是否使用平滑数据进行预测,在这种情况下平滑是有效的,或者我们是否将其作为某种分析算法的输入,在这种情况下,消除可变性将模拟我们数据中比保证更高的确定性。输入数据中这种毫无根据的确定性会延续到最终结果,需要加以考虑,否则所有推论都将过于确定。(当然,如果我们使用基于“夸大确定性”的模型进行预测,我们也会得到太小的预测区间。)

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

p 值

声称平滑不适用于建模分析会谴责它具有比其他情况更高的均方误差。均方误差或 MSE 可以分解为三项,称为“偏差”的值的平方、方差和一些不可约误差。(这在下面的引用中显示。)过度平滑的模型具有高偏差,即使它们具有低方差,而过于粗糙的模型具有高方差和低偏差。

这根本没有什么哲学意义。这是一种数学表征。它不依赖于噪声的特性或系统的特性。

看:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (这有分解的推导。)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei 以不同的方式做同样的事情,并引入了当人们试图预测时会发生什么。)

古典统计几乎总是坚持无偏估计。1955 年,斯坦福的统计学家查尔斯·斯坦 (Charles Stein) 表明,对于重要的特殊情况,存在具有较低 MSE 的无偏估计量组合,特别是后来被称为 JAMES-STEIN 估计量的组合。布拉德利·埃夫隆 (Bradley Efron) 写了一篇关于这场洞察力革命的非常平易近人的文章:http: //statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf