在包含数千个数据点的数据集中,我正在测试基于 5 个滚动数据点一直到 100 个滚动数据点的不同短期和长期数据输出(每个值都是 excel 中的单独列:5、6 ,..., 100)。
我开发的测试(对整个事情有基本的了解)是检查哪些是这些滚动数据输出的更好“拟合”(有点像移动平均线,但不完全是),换句话说,如果第 5、17 或 98 列. 理论上,在常规计算中,更好的拟合应该产生更低的标准偏差。
更好理解的类比是这样的:如果我对 5 周期正弦波进行 5 点移动平均,输出应该为零或平坦,对于 6 周期正弦波的 6 点移动平均,输出应该是相同的,等等一直到 100。这与说每种情况下的标准偏差应该为零是一样的。
因此,测试实际上是在从 5 一直到 100 的每列中选择最低标准偏差,然后应该提供最佳“拟合”(回到类比,与“正弦波”拟合)。
然而,正如统计学家会很快注意到的那样(恐怕我肯定不是其中之一),这种方法存在两个主要困难:
- 较长的数据集,即接近 100 个滚动数据点,具有较大的绝对偏差,因此产生较高的标准偏差。因此,较短的数据系列中较低的标准偏差可能并不表示更好的“拟合”,只是较低的绝对偏差;
- 每列都有不同数量的滚动数据点,因此列之间的数字和统计拟合可能无法比较。
所以我的问题是:有没有比我上面使用的标准偏差更好的统计方法,这样它对绝对偏差和数据点的数量不敏感?
谢谢!