系数/模型平均以控制预测中的外生情况

机器算法验证 时间序列 物流 分类 预测
2022-04-12 13:35:45

我有兴趣探索旨在处理特定类型问题的统计模型(或其修改)。由于我对统计术语的无知,我只能通过(人为的)示例来描述此类问题:

假设我们有兴趣估计给定手机客户在下个月(10 月)期间放弃他/她的服务(流失)的可能性。我们获得了过去三个月(7 月、8 月、9 月)的手机用户数据。

在估计 10 月份的流失概率时,我们将希望使用一个模型,该模型强调每个月都能始终如一地预测流失的输入,抑制那些系数逐月变化很大的输入的重要性。例如,“市场”可能始终如一地预测客户流失,但特定于某个训练数据集的外部性(例如,竞争对手在 8 月份在特定市场营销新手机)可能会以某种方式影响系数不一定适用于 10 月。在预测 10 月份的客户流失可能性时,应修正/压缩/平均市场系数。

这是一个不太人为的例子。在估计选民在 2012 年选举中投票的可能性时,我们可以使用 2000、2004 和 2008 年选举的选民级别数据来训练投票率的逻辑回归。如果“政党”是输入,由于外生情况(独特的政治环境),2000 年和 2004 年的系数可能与 2008 年的政党系数有显着差异。在估计给定选民的 2012 年投票可能性时,我们需要修剪/压缩/平均政党系数,以“消除”难以量化的特定选举年的差异。

谁能指出我正确的方向?关于如何更好地提出这个问题的任何指导?我应该使用什么术语?在此先感谢您的帮助。

1个回答

只要模型捕获了相关因素,我不确定您是否需要任何特殊技巧。为了简单起见,我将在线性回归的背景下讨论这个问题。相同的直觉延续到时间序列设置。

假设您想预测品牌 X 的手机月销量并说明这些想法,假设您使用线性回归来做到这一点。您遇到的问题是,每个月都有一些影响销售的因素(例如,举个愚蠢的例子,当月的天气)和一些特定于一个月的因素(例如,新手机的推出)。您希望始终如一地考虑这两个因素。

(其中“C”代表普通,“m”代表月)和(其中 I 代表异质,m 代表月)表示影响每月销售额的因素。然后,您的模型将是: CmIm

Sm=βcCM+βiIm+ϵ

在没有特殊因素的月份,将为 0,因此对销售的影响将由捕获,而在您确实有特殊因素的月份,对销售的影响将是 beta_i如果特殊因素抑制品牌 X 的销售,则为负值。因此,只要模型中存在所有必要因素,系数就会“自动”调整。Imβcβc+βiβi

因此,在我看来,如果您确实考虑了所有因素,无论它们是某个时间段的特殊性还是跨时间段的常见因素,您似乎不必担心您提出的问题。

编辑以回应评论

您的音乐会和年轻消费者使用手机增加的例子就是互动效应的一个例子。换句话说,你的例子是说音乐会对年轻消费者的手机使用效果比年长消费者更高。基本上,您的模型在说以下内容:

分钟 = beta1 年龄 + beta2 * 音乐会 + beta3 * 年龄 * 音乐会 + 错误

因此,beta3 参数将捕捉年轻/年长消费者对音乐会反应的不同影响。