完全披露:我不是统计学家,也不声称自己是统计学家。我是一名卑微的 IT 管理员。请对我温柔一点。:)
我负责收集和预测我们企业的磁盘存储使用情况。我们每月收集我们的存储使用情况,并使用简单的滚动十二个月线性回归进行预测(换句话说,在进行预测时只考虑前十二个月的数据)。我们将此信息用于分配和资本支出计划,例如“基于此模型,如果存储在 y 个月内,我们将需要购买 x 数量以满足我们的需求。” 这一切都足以满足我们的需求。
周期性地,我们的数字会出现较大的一次性变动,这会导致预测失败。例如,有人发现不再需要的 500GB 旧备份并将其删除。对他们回收空间有好处!然而,我们的预测现在因一个月内的大幅下跌而偏离了方向。我们一直只是接受这样的下降需要 9-10 个月才能从模型中消失,但如果我们正在进入资本支出计划季节,那可能会很长。
我想知道是否有一种方法可以处理这些一次性差异,以使预测值不会受到太大影响(例如,线的斜率不会发生太大变化),但是会考虑到它们(例如与特定时间点相关的 y 值的一次性变化)。我们解决这个问题的第一次尝试产生了一些丑陋的结果(例如指数增长曲线)。如果这很重要,我们会在 SQL Server 中进行所有处理。