我目前正在处理一项需求预测任务,其中包含数千家商店的数万种产品的数据。更具体地说,我有每家商店每件商品 3 年的每日销售数据,我的目标是预测每家商店每件商品的未来销售额,提前一天;然后提前两天,等等。
到目前为止,我已经考虑将每个产品-商店对分解为一个时间序列,并对每个时间序列进行预测,就像在 Neal Wagner 的论文“在现实世界系统中预测多个时间序列的智能技术”中所做的那样。换句话说,我将仅使用特定商店的产品销售历史信息来预测该产品在该商店中的未来销售情况。
然而,我一直在浏览 Kaggle,像Corporación Favorita Grocery Sales Forecasting这样的竞赛提出了一种不同的方法,即使用来自所有商店和所有产品的信息来预测未来的销售情况。据我了解,所有商店的所有产品的历史销售信息都被转储到训练集中,模型将从中学习预测未来的销售。它与传统的时间序列方法有很大不同,但显然,根据比赛的结果,它是有效的。
后一种方法似乎很有希望并且更强大。但是,存在必须处理数亿个数据点的问题。
哪种方法更适合我的任务?对于那些解决过类似问题的人,您会推荐哪种方法?