我有一个格式如下的数据集。我正在尝试按 Product_Id 预测即将到来的季节的 target_value,该季节的长度始终为 26 周。主要挑战是,在即将到来的季节,产品可能会在与上一季不同的商店组中销售,并且可能在与上一季不同的几周内销售(有些产品在 26 周内销售,其他产品在橱窗销售即第 6-13 周)。我想依靠产品属性来帮助确定产品在不同的周/商店中的销售情况,具体取决于类似产品在这些周/商店中的销售情况。
数据是时间序列的,有许多不同的产品。它由分类变量、数值变量以及表示销售来自哪个商店的 store_id 组成。
数据摘要:
- 有 3 年的历史,目标变量是 6 个月预测范围内的销售额
- 多变量时间序列
- 由分类变量和数值变量组成
- 有在不同时间范围内销售的产品(对于同一产品,这些时间范围在未来可能会发生变化。即去年它在第 3-10 周内销售,但在明年的预测范围内,预计将在第 6 周内销售-14)
- 有在不同时间段内在不同商店销售的产品(在未来预测范围内也可以在不同商店销售,而不是过去销售)
- 对于产品子集是稀疏的
我的问题是:
- 什么是可以处理稀疏历史以及多个变量的适当算法
- 将数据结构化为算法输入的正确方法是什么?--为此,我曾计划将分类变量转换为虚拟变量,但不确定是按原样保持时间还是将周转换为虚拟变量,因为我可以预测不同产品的不同周集。我对 store_id 有同样的问题。
我是构建这些问题的新手,所以请原谅任何错误或缺失的信息,并让我知道需要哪些额外数据。任何和所有的反馈表示赞赏!
