开发统计测试以确定更好的“拟合”

机器算法验证 时间序列 标准差 拟合优度
2022-03-23 18:55:54

在包含数千个数据点的数据集中,我正在测试基于 5 个滚动数据点一直到 100 个滚动数据点的不同短期和长期数据输出(每个值都是 excel 中的单独列:5、6 ,..., 100)。

我开发的测试(对整个事情有基本的了解)是检查哪些是这些滚动数据输出的更好“拟合”(有点像移动平均线,但不完全是),换句话说,如果第 5、17 或 98 列. 理论上,在常规计算中,更好的拟合应该产生更低的标准偏差。

更好理解的类比是这样的:如果我对 5 周期正弦波进行 5 点移动平均,输出应该为零或平坦,对于 6 周期正弦波的 6 点移动平均,输出应该是相同的,等等一直到 100。这与说每种情况下的标准偏差应该为零是一样的。

因此,测试实际上是在从 5 一直到 100 的每列中选择最低标准偏差,然后应该提供最佳“拟合”(回到类比,与“正弦波”拟合)。

然而,正如统计学家会很快注意到的那样(恐怕我肯定不是其中之一),这种方法存在两个主要困难:

  1. 较长的数据集,即接近 100 个滚动数据点,具有较大的绝对偏差,因此产生较高的标准偏差。因此,较短的数据系列中较低的标准偏差可能并不表示更好的“拟合”,只是较低的绝对偏差;
  2. 每列都有不同数量的滚动数据点,因此列之间的数字和统计拟合可能无法比较。

所以我的问题是:有没有比我上面使用的标准偏差更好的统计方法,这样它对绝对偏差和数据点的数量不敏感?

谢谢!

2个回答

平滑、滚动平均值、运行平均值……都是(也许)显示数据的好方法。但是,使用平滑数据的结果作为任何统计分析的输入可能会产生误导性的结果,尤其是当新手这样做时。William Briggs 在这篇文章这篇文章的优秀博客中强调了这一点。

根据所提供的信息,我认为您可以考虑 AIC,这是一种受自由度惩罚的可能性度量。