在正则回归中,Y | 的期望值 X 被允许改变。事实上,当我们想要对条件均值的这种变化进行建模时,我们通常会使用回归。
我不明白为什么在时间序列中,我们希望我们的序列是平稳的。我得到了平稳方差假设,因为这类似于常规回归中的同分布假设。但为什么平均平稳性如此重要?
在正则回归中,Y | 的期望值 X 被允许改变。事实上,当我们想要对条件均值的这种变化进行建模时,我们通常会使用回归。
我不明白为什么在时间序列中,我们希望我们的序列是平稳的。我得到了平稳方差假设,因为这类似于常规回归中的同分布假设。但为什么平均平稳性如此重要?
在时间序列预测的情况下,首先,您需要了解平稳性在 ARMA 和相关模型(AR:自动回归,MA:移动平均)的背景下很重要。还有其他类型的时间序列预测模型不需要平稳性,例如 Holt-Winters 或 Facebook Prophet。
这里有两个直观的(如果不是完全数学上严格的话)解释为什么平均平稳性在 ARMA 案例中很重要:
ARMA 模型的 AR 组件,将时间序列建模视为监督学习问题,. 监督学习中的一个常见经验法则是训练数据的分布和测试数据的分布应该相同,否则你的模型在样本外测试和生产数据上的表现会很差。由于对于时间序列数据,您的训练集是过去,而您的测试集是未来,平稳性要求只是确保分布随时间保持不变。通过这种方式,您可以避免在分布与测试/生产分布不同的数据上训练模型时出现的问题。特别是平均平稳性只是说训练集的平均值和测试的平均值应该保持不变。
一个更简单的考虑:尽可能采用最基本的 ARMA 模型,一个模型:所以基于前一个估计步长的递归关系是: ,取期望值:意味着: 所以如果我们希望随着时间保持不变,这是模型的初始假设,因为我们希望它类似于线性回归,那么必须对所有
上述考虑也适用于一般的 ARMA 情况,使用和项,虽然数学比我描述的要复杂一些,但直观地说,这个想法仍然是一样的。ARIMA 中的“I”代表“集成”,它指的是允许将更一般的时间序列转换为静止的并且可以使用 ARMA 过程建模的差分过程。
我不同意@Alexis 的描述,即“时间序列是静止的或多或少体现了过去无关紧要的世界观”——如果有的话,相反:将时间序列转换为静止的用于建模目的正是关于查看时间序列中是否存在任何因果/确定性结构,而不仅仅是趋势和季节性。即过去是否以比大规模变化更微妙的方式影响现在或未来?(但我可能只是误解了她想说的话)。
平稳性很重要,因为它是一个数学上的强假设,仍然比独立性或有限范围依赖性弱得多。
在某些情况下,它主要对数学易处理性很重要:首先找出平稳时间序列的正确性更容易,然后您可以研究如何放宽假设。也许你只需要弱感觉平稳性,或者平均平稳性加上一些尾部条件,或者其他什么。或者,也许您需要平稳性才能使结果准确成立,但它在较弱的假设下大致成立。
在其他情况下,平稳性很重要,因为有很多方法可以实现非平稳,很难处理每一种。如果一个问题可以用一个平稳的序列来近似,那将是一个很大的实际优势。这里重要的是要记住,出现在数学中的平稳序列可能不是您的原始数据。例如,传统的 ARMA 模型是固定的,但您通常希望在拟合之前移除季节和趋势关系。您可能希望对均值和方差增加的序列进行对数转换。等等。
首先,如果您使用任何假设 iid 的推理工具,您的平均估计值和标准误差将有严重偏差,这意味着您的结果可能是虚假的。如果您的数据是弱平稳的,这甚至可能是正确的,但是您的研究周期比您的序列在干扰后达到平衡所需的时间短。
其次,假设时间序列是平稳的,或多或少体现了过去无关紧要的世界观(例如,今天 COVID-19 的流行与昨天的 COVID-19 流行完全无关;人均花费在诸如因为今年的香烟完全独立于去年人均花费的美元)……有点不切实际。
平稳意味着描述随机过程的统计数据是恒定的。“无记忆马尔可夫过程”是另一种说法,即概率生成函数没有“反馈”项,但如果你认出了这些词,你可能不会问这个问题。FWIW“弱静止”并不完全相同,统计数据的恒定或可知变化率将是弱静止的,就像平均起来的东西一样,但它涉及更多一点,所以考虑这个公平的警告,还有更多要知道万一这是难题的一部分,但是详细描述所有不稳定的事物会将简单的答案变成复杂的答案。
为什么静止很重要?常用的统计公式经过精心设计,以使用数据集来提取不精确的描述,并且具有可估计的准确性,否则未知的随机过程。这些公式假设添加更多样本通过减少不确定性来提高描述的准确性。为此,均值集中趋势,即均值中的遍历,必须为真。如果随机过程本身正在发生变化,例如平均值或方差正在发生变化,那么基本的基本假设是无效的,您无法做出更好的估计。
作为一般的“会发生什么”,如果平均值作为时间的线性函数移动,计算的平均值将表示加权平均时间的平均值,并且计算的方差将被夸大。可以计算非平稳过程的“最佳后验”(事后)估计,然后使用它来提取有意义的统计数据,因为时间函数的最佳估计可以最小化方差。假设一些高阶时间函数并创建一个复杂的模型也很容易,该模型看起来有效且具有预测性,但实际上没有预测能力,因为它模拟了随机性的快照,而不是潜在的时间趋势。