如何预测系列中的下一个数字,同时拥有可能影响它的其他系列数据?

机器算法验证 机器学习 时间序列 预测 预言
2022-04-19 09:46:05

假设我们要预测2020 年巨无霸的价格我们有 2 个我们认为可能会影响巨无霸价格确定的指数。

|----------------|----------------|----------------------|----------------|
|     Date       | big_mac_price  |  burger_king_price   |   %inflation   |
|----------------|----------------|----------------------|----------------|
|     2020       |      ?????     |         1.8          |       3        |
|     2019       |       1.5      |         1.6          |       2        |
|     2020       |       2.1      |         2.5          |       1        |
|     2020       |       2.2      |         2.5          |       0        |
|----------------|----------------|----------------------|----------------|

假设我们没有额外的数据。你会用什么样的方法来估计它?在理想情况下,设置我们的预测后,您将能够设置每个索引的权重例如:

  • 汉堡王价格影响79%
  • 通货膨胀将影响它 21%

我知道这项任务可能缺少信息,但这里重要的是用于获取它的方法,因此如果需要,请随时发明更多数据。

2个回答

好问题!

一般方法称为 ARMAX 模型在此处输入图像描述

方法具有普遍性的原因是,重要的是要考虑以下可能的自然状态,这些状态不仅会带来并发症,还会带来机会。

  1. 将之前的巨无霸价格与两个因果关系中的活动结合起来,可以更好地预测巨无霸价格
  2. 由于历史定价策略,巨无霸价格可能存在明显趋势
  3. 巨无霸价格可能与汉堡王价格或汉堡王价格的变化或汉堡王价格的历史/趋势有关
  4. 巨无霸价格可能与通胀、通胀变化或通胀趋势有关。
  5. 在巨无霸价格或汉堡王价格或通货膨胀的历史中可能存在不寻常的值,应进行调整以产生良好的系数。有时异常值是记录错误。
  6. 可能会忽略一些重要的变量(本质上是随机的),例如温迪汉堡的价格。
  7. 可能存在一个或多个方差变化,表明需要某种降低权重以标准化易失性数据。

最终模型可以表示为多项式分布式滞后模型 (PDL) 或称为 ADL 模型(自回归分布式滞后)。

可能的解决方案之一:支持向量回归或 SVR。使用机器学习编程,解决方案将如下所示:

var samples = [[2.5, 0], [2.5, 1], [1.6, 2]];
var targets = [2.2, 2.1, 1.5];

var regression->train(samples, targets);

result = var regression->predict([1.8, 3]);
return result;

在这种情况下,结果将是1.41879