机器算法验证 - 预测销售的独特（？）想法 - 吾爱随笔录

我正在开发一个模型来预测产品的总销售额。我有大约一年半的预订数据，所以我可以进行标准的时间序列分析。但是，我也有很多关于每个“机会”（潜在销售）的数据，这些数据要么已关闭，要么已丢失。“机会”沿着管道的各个阶段进行，直到它们关闭或丢失；他们还拥有有关潜在买家、销售人员、互动历史、行业、预计预订规模等的相关数据。

我的目标最终是预测总预订量，但我想考虑所有有关当前“机会”的信息，这些信息是预订的真正“根本原因”。

我的一个想法是连续使用两种不同的模型，如下所示：

使用历史“机会”来构建一个模型，该模型预测由单个“机会”引起的预订（我可能会使用随机森林，甚至在这一步中使用普通的旧线性回归）。
使用从 1 开始的模型来预测当前正在筹备中的所有“机会”的估计预订量，然后根据每个“机会”的创建月份对这些估计值求和。
使用时间序列模型（可能是 ARIMA？），使用 1.5 年的每月历史时间序列数据和该月创建的所有“机会”的预测（使用模型 1）的总预订量。

诚然，这些机会转换为实际预订会有滞后，但时间序列模型应该能够处理滞后。

这听起来如何？我已经阅读了大量有关时间序列和预测销售的资料，据我所知，这是一种有点独特的方法。因此，我非常感谢任何反馈！