移动平均线定义为
一种平滑时间序列的方法,以减少随机变化的影响并揭示任何潜在的趋势或季节性。
(牛津统计词典,格雷厄姆厄普顿和伊恩库克编辑)
如果我们将类似的措施应用于非时间序列数据会怎样?例如,如果我们在 x 轴上绘制(比如说)高度,在 y 轴上绘制重量,我们可以做一些非常类似于 MA 的事情。
这还叫移动平均线吗?或者它还有别的名字吗?(一般术语是平滑的,但 MA 是一种特殊的平滑)。
移动平均线定义为
一种平滑时间序列的方法,以减少随机变化的影响并揭示任何潜在的趋势或季节性。
(牛津统计词典,格雷厄姆厄普顿和伊恩库克编辑)
如果我们将类似的措施应用于非时间序列数据会怎样?例如,如果我们在 x 轴上绘制(比如说)高度,在 y 轴上绘制重量,我们可以做一些非常类似于 MA 的事情。
这还叫移动平均线吗?或者它还有别的名字吗?(一般术语是平滑的,但 MA 是一种特殊的平滑)。
移动平均滤波器是有限脉冲响应 (FIR) 滤波器的特殊情况,其中使用相等的权重,加起来为单位。
请注意,在时间采样数据的情况下,平均结果将写入平均窗口中最近数据点的时间索引,因此称为过滤器。如果使用另一个索引,则这被解释为使用未来信息,并且该过程称为平滑。
移动平均滤波器/平滑器显然基于底层状态变化缓慢的假设进行操作,因此可以通过局部平均来恢复,以减少观察噪声。
如果我们的索引基于另一个变量,那么我们并没有做一些非常不同的事情。时间索引可以被认为是从均匀分布中随机抽样。在这种情况下应用类似的局部平均思想对应于核回归或核平滑。
由于没有时间分量,过滤器与平滑器的区别不是很相关(同样,过滤器是否是因果过滤器)。
我们在重量上也很灵活。如果我们使用统一的内核,移动平均线的等权重将被模仿。其他内核显然适用于类似于 FIR。
主要区别在于确定邻域时。在时间样本中,通常假设等距离采样。在回归情况下,需要使用更复杂的距离度量。对于单个自变量,这不是什么大问题(一条线上的距离非常直观)。但是如果有很多自变量,那么距离计算会严重影响要包含在平均中的数据点。
领域之间的术语可能会有所不同,即使显然共享应用程序也是如此。基于多个领域的统计理论和实践(时间序列、空间序列、任何可以根据预测变量平滑响应的应用),我简单地提出移动平均线仍然是时间序列环境之外的移动平均线。
没有充分的理由将应用程序必须是时间序列作为移动平均线定义的一部分。在实践中,这可能是最常见的应用,也是人们首先遇到的例子,但原则上这两个事实都不是决定性的。
你是否拥有甚至都不是关键
每个点最多有一个非缺失值
规则间隔的值
在您平均的一个或多个维度上。(在维度上,请注意,对空间中相邻点的值进行平均通常很有帮助。)
您始终可以定义足够通用的权重(内核)集以应对此类复杂性。我断言随着时间或距离被平均点的距离而下降的权重通常比相等的权重更有用。平均值是否应该是不对称的(例如只考虑“早期”点)也有待讨论。
因此,为了明确指出一个关键点,我认为没有理由将移动平均线定义为基于相等的权重。在时间序列分析中,经常使用相等的权重,但这最多是一个约定或简单的问题。基础理论和实践相结合,表明相等的权重在频域中具有不幸的特性,并且对异常值特别敏感,因为当异常值离开或进入窗口时,平均值可能会跳跃,尽管并不总是被认为是不可取的。
请注意,我们可以灵活地确定在这种情况下以及任何其他情况下的平均值。更喜欢中位数?修剪是什么意思?清楚自己在做什么是使用术语的主要必要条件。
散点图更平滑这一术语适用于一些不是时间序列的应用程序,但显然不是全部。