时间序列数据:我如何衡量新产品销售对现有产品销售的影响(统计)?

数据挖掘 机器学习 r 时间序列
2021-09-25 16:22:09

我的目标是……

  • 发现产品 5(新产品)是否真的影响其他产品的销售(产品 1 到 4)?
  • 如果它影响其他产品的销售,有多大?

R 新手并尝试了几个相关的帖子,但没有找到我的问题的确切答案。我喜欢 R 并且每天都在学习新的东西,这有助于我们做出数据驱动的决策。

我的示例数据集如下所示(每周和产品 1 到产品 5 每周的销售额)这里我的新产品是产品 5,并在第 5 周推出。

Week    Product-1   Product-2   Product-3   Product-4   Product-5
1   2   4   5   5   
2   4   4   6   4   
3   4   4   6   5   
4   4   4   6   6   4
5   4   6   5   3   5
6   2   7   6   4   3
7   3   8   7   5   6
8   2   9   9   3   6

这里我的问题是

  • 显示产品 5(统计)影响的最佳过程或模型是什么?
  • 在运行关联之前是否需要运行协整测试?例如,其中一些产品永远不会与产品 5 相关(例如:鸟蛤的增长与电力需求的增长)
  • 我如何知道这种组合中的相关性与因果关系?
  • 自从我的新产品在第 5 周推出以来,我可以从哪里开始我的关联?是从第 5 周开始还是从前几周开始?
  • 我需要先测试平稳性吗?并将数据带到静止状态?
2个回答

你可以建立一个 ARIMAX 模型。这将允许包含自回归 (AR) 项以及产品 5 中的销售额作为外生输入 (X)。这将为您提供一个潜在的模型,其中产品的销售一世 有时 是(谁)给的 s一世 然后,

s1=α1s-11+α2s-21++β0s5+β1s-15+

请注意,您可能需要先使系列静止,但请参阅下面的更多内容。您可以使用依赖于美国人口普查局开发的 X-13ARIMA-SEATS 软件的季节性R 包估计此模型

我建议确保您的时间序列都是固定的,例如在使用 X13 之前请参阅这篇文章。我还会运行协整检验。有关更多解释,请参阅这篇出色的帖子

由于您只有第 5 周的数据,我将在第 5 周开始建模,但您可以包含与第 5 周之前产品 1 的销售相关的自回归 (AR) 项。

  • 我如何知道这种组合中的相关性与因果关系?

找到一个变量对另一个变量的因果影响是一件困难的事情,因为可能有一些隐藏变量是产品 5 和所有其他变量背后的驱动因素。例如,真正的因果效应可能是天气好转导致产品 5 和其他产品的销售额增加,使它们相关但没有任何因果关系。

在确定因果关系时尝试消除偏见的一种方法是使用以下https://en.wikipedia.org/wiki/Instrumental_variable