Facebook 的 Prophet 与线性回归有什么不同吗?

机器算法验证 回归 机器学习 时间序列 预言家
2022-01-31 08:39:37

所以我读到的关于Facebook 先知的内容是,它基本上将时间序列分解为趋势和季节性。例如,一个加法模型可以写成:

y(t)=g(t)+s(t)+h(t)+et

  • t时间
  • g(t)趋势(可能是线性的或逻辑的)
  • s(t)季节性(每天,每周,每年......)
  • h(t)假期
  • et错误

我的问题是:不能用简单的线性回归来完成吗?如果我们比较它们,结果会有什么不同,为什么?

4个回答

这里的问题是得到一个方程,将观察到的数据解析为信号和噪声。如果您的数据很简单,那么您的回归方法可能会奏效。应该注意理解他们对 Prophet 所做的一些假设。您应该更好地了解 Prophet 所做的事情,因为它不仅适合简单的模型,而且还尝试添加一些结构。

例如,我在阅读了他们写得很好的介绍后所做的一些思考可能会对您的评估有所帮助。如果我误解了他们的方法,我提前道歉,如果是这样,我希望得到纠正。

1) 他们的主要例子有两个趋势断点,但他们只捕捉到了最明显的一个。

2)他们忽略任何和所有反映省略的随机序列的ARIMA结构或使用Y的历史值来指导预测的价值。

3)他们忽略了用户建议的随机和确定性序列的任何可能的动态(领先和滞后效应)。Prophet 的因果回归效应只是同时代的。

4) 没有尝试识别系列或季节性脉冲中的阶跃/电平变化,例如由于某些未知的外部事件导致的星期一效应中途的变化。Prophet 假设“简单的线性增长”,而不是通过检查替代可能性来验证它。有关这方面的可能示例,请参阅使用 Facebook Prophet 和 R 预测在线订阅业务的重复订单

5) 正弦和余弦是一种处理季节性的不透明方式,而季节性影响,如星期几、月份中的星期几、月份中的星期、一年中的月份等在处理人为(处理人类!)影响时更有效/信息丰富。

建议年度模式的频率为 365.25 几乎没有意义,因为我们不会在与去年完全相同的同一天执行相同的操作,而月度活动更加持久,但 Prophet 似乎没有提供 11 个月度指标选项。每周 52 的频率没有什么意义,因为我们每年都没有 52 周。

6)没有尝试验证错误过程是高斯的,因此可以进行有意义的显着性测试。

7) 不担心模型误差方差是均匀的,即,在特定时间点不会发生确定性变化,表明加权最小二乘。无需担心找到最佳功率变换来处理与期望值成正比的误差方差何时(以及为什么)应该记录(数字)分布的对数?.

8) 用户必须预先指定事件/假期前后所有可能的领先和滞后影响。例如,每日销售额通常在 11 月下旬开始增加,这反映了圣诞节的长期影响。

9) 不用担心由此产生的错误没有结构,建议通过充分性诊断检查来改进模型的方法。

10)显然不关心通过删除不重要的结构来改进模型。

11) 没有工具来获得一系列模拟预测,其中置信限不一定是对称的,通过引导模型的错误并允许可能的异常。

12) 让用户对趋势做出假设(趋势断点数和实际断点数)允许在面对大规模分析时不需要/不可用的灵活性,其名称是为免提大规模应用程序设计的。

我没有使用它,但这是他们的 preprint的摘要(强调我的):

预测是一项常见的数据科学任务,可帮助组织进行容量规划、目标设定和异常检测。尽管它很重要,但在生成可靠和高质量的预测方面存在着严峻的挑战——尤其是当存在各种时间序列并且具有时间序列建模专业知识的分析师相对较少时为了应对这些挑战,我们描述了一种“大规模”预测的实用方法,该方法将可配置模型与分析师在环性​​能分析相结合. 我们提出了一个具有可解释参数的模块化回归模型,可以由具有时间序列领域知识的分析师直观地调整。我们描述性能分析以比较和评估预测程序,并自动标记预测以供人工审查和调整。帮助分析师最有效地利用他们的专业知识的工具能够对业务时间序列进行可靠、实用的预测。

在介绍中:

我们在创建业务预测的实践中观察到两个主要主题。首先,完全自动的预测技术可能难以调整,而且通常过于僵化,无法纳入有用的假设或启发式方法。其次,整个组织中负责数据科学任务的分析师通常对他们支持的特定产品或服务具有深厚的领域专业知识,但通常没有时间序列预测方面的培训。

所以在我看来,他们并没有声称在这里取得了实质性的统计进步(尽管它的能力远远超过你概述的简单模型)。相反,他们声称他们的系统使大量没有时间序列分析专业知识的人能够在应用他们自己的领域专业知识和系统特定约束的同时生成预测。

如果您已经具备时间序列分析和复杂模型编码方面的专业知识,那么这可能对您没有太大帮助。但如果他们的说法属实,这将非常有用!科学(和商业)的进步不仅因为新思想,还因为新工具及其传播(参见Freeman Dyson关于该主题的简短文章和此回复)。

以统计本身为例:R并不代表统计上的进步,但它具有巨大的影响力,因为它使更多的人可以轻松地进行统计分析。它一直是建立大量统计理解的脚手架。如果我们幸运的话,先知可能会扮演类似的角色。

Dyson, Freeman J. “科学主要是由想法驱动还是由工具驱动?” 科学 338,没有。6113(2012):1426-1427。

您缺少可以在线性模型中实现的变化点,分段线性样条。

你是对的,至少在极限情况下它是一个线性正则化回归(L1 和 L2 正则化)。

请注意,有一个单独的先知模型,逻辑增长。

此外,您假设季节性因素是相加的,但它们也支持乘性季节性效应,至少对于增长建模而言,这似乎更自然。

一个简单的线性回归可以做很多事情,但不是 Prophet 所做的全部。仅举一个例子,您可以为趋势指定自己的变化点候选者,Prophet 将使用它作为先验。