您当然不想构建 3,000 个单独的模型!这不仅在计算和管理上很麻烦,而且还意味着每个模型只有一个客户的数据,因此您忽略了每个模型中其他客户的数据。这实际上意味着您对客户的预测仅基于他们的个人(小)数据集,并且您没有使用来自其他客户的(大)数据集来帮助您进行预测的任何方面。
比这种怪物更好的方法是制定某种通用时间序列模型,该模型对每个客户都有一个影响项。有很多方法可以做到这一点,最终的测试是看看哪个模型能很好地拟合你的数据,并做出好的样本外预测。这是一个简单模型的示例,可让您开始思考可能性。
一个示例模型:如果您让成为客户在时间的对数收入,您可以制定一个简单的高斯 ARIMA 模型,包括客户级别的均值和方差效应:Xi,tit
ϕ(B)Δd(Xi,t−μi)=θ(B)σiεtεt∼IID N(0,1),
其中 AR 和 MA 特征多项式为:
ϕ(B)=1−ϕ1B−...−ϕpBpθ(B)=1+θ1B+...+θqBq.
如您所见,这是一个标准的高斯 ARIMA 模型,但对于每个客户,每个系列的均值和方差参数都不同。一旦您使用数据来估计参数,您就可以根据他们在系列中的估计均值和方差对单个客户进行预测。有些客户给你更多的收入,所以他们会有更高的均值。一些客户的收入差异更大,因此他们会有更高的差异。然而,模型的其他方面是使用来自所有客户的数据进行估计的。
重要的是要注意,您可以对这个模型进行许多变化,例如使用客户级别的随机效应,或者使用另一个时间序列过程为每个客户的潜在平均值使用隐藏状态过程。真的,你可以做出各种各样的变化,你需要看看什么适合你的数据。但是,这种模型的优点是同时使用所有数据来估计参数,因此对单个客户的预测仍然依赖于所有数据。