具有不同销售窗口的多元时间序列

数据挖掘 时间序列
2022-03-08 20:26:21

我有一个格式如下的数据集。我正在尝试按 Product_Id 预测即将到来的季节的 target_value,该季节的长度始终为 26 周。主要挑战是,在即将到来的季节,产品可能会在与上一季不同的商店组中销售,并且可能在与上一季不同的几周内销售(有些产品在 26 周内销售,其他产品在橱窗销售即第 6-13 周)。我想依靠产品属性来帮助确定产品在不同的周/商店中的销售情况,具体取决于类似产品在这些周/商店中的销售情况。

数据是时间序列的,有许多不同的产品。它由分类变量、数值变量以及表示销售来自哪个商店的 store_id 组成。

数据摘要:

  • 有 3 年的历史,目标变量是 6 个月预测范围内的销售额
  • 多变量时间序列
  • 由分类变量和数值变量组成
  • 有在不同时间范围内销售的产品(对于同一产品,这些时间范围在未来可能会发生变化。即去年它在第 3-10 周内销售,但在明年的预测范围内,预计将在第 6 周内销售-14)
  • 有在不同时间段内在不同商店销售的产品(在未来预测范围内也可以在不同商店销售,而不是过去销售)
  • 对于产品子集是稀疏的

我的问题是:

  1. 什么是可以处理稀疏历史以及多个变量的适当算法
  2. 将数据结构化为算法输入的正确方法是什么?--为此,我曾计划将分类变量转换为虚拟变量,但不确定是按原样保持时间还是将周转换为虚拟变量,因为我可以预测不同产品的不同周集。我对 store_id 有同样的问题。

我是构建这些问题的新手,所以请原谅任何错误或缺失的信息,并让我知道需要哪些额外数据。任何和所有的反馈表示赞赏!

在此处输入图像描述

1个回答

欢迎来到本站!这是一个相当广泛的问题,不可能在一篇文章中回答。所以,我会让你从研究推荐系统和算法开始。最重要的是,如果您完全想将商店考虑在内,我将开始收集一个包含每个商店属性的数据集——它们在哪里?他们开几个小时?他们的流量大吗?等等

如果您继续使用这些产品,那么您将研究“基于内容的推荐系统”。如果您想通过查看商店来继续,那么您将研究“基于社区的推荐系统”。从那里你应该能够选择一个模型和/或选择两种方法的混合,并开发一个合适的解决方案。

祝你好运!