假设我从 2005 年 1 月到 2011 年 12 月有超过 20.000 个每月时间序列。每一个都代表不同产品的全球销售数据。如果我不想为每一个产品计算预测,而是只想关注少数“真正重要”的产品,那会怎样?
我可以按年总收入对这些产品进行排名,并使用经典的 Pareto 缩减列表。在我看来,尽管它们对底线贡献不大,但有些产品很容易预测,将它们排除在外将是错误的判断。过去 10 年每月销售 50 美元的产品可能听起来不多,但它需要很少的努力来预测未来的销售情况,我不妨这样做。
因此,假设我将我的产品分为四类:高收入/易于预测 - 低收入/易于预测 - 高收入/难以预测 - 低收入/难以预测。
我认为只留下属于第四组的那些时间序列是合理的。但是我如何准确地评估“可预测性”?
变异系数似乎是一个很好的起点(我还记得不久前看过一些关于它的论文)。但是,如果我的时间序列表现出季节性/水平变化/日历效应/强烈趋势怎么办?
我想我应该只根据随机分量的可变性而不是“原始”数据之一进行评估。还是我错过了什么?
以前有没有人偶然发现过类似的问题?你们会怎么做呢?
一如既往,非常感谢任何帮助!