我有兴趣探索旨在处理特定类型问题的统计模型(或其修改)。由于我对统计术语的无知,我只能通过(人为的)示例来描述此类问题:
假设我们有兴趣估计给定手机客户在下个月(10 月)期间放弃他/她的服务(流失)的可能性。我们获得了过去三个月(7 月、8 月、9 月)的手机用户数据。
在估计 10 月份的流失概率时,我们将希望使用一个模型,该模型强调每个月都能始终如一地预测流失的输入,抑制那些系数逐月变化很大的输入的重要性。例如,“市场”可能始终如一地预测客户流失,但特定于某个训练数据集的外部性(例如,竞争对手在 8 月份在特定市场营销新手机)可能会以某种方式影响系数不一定适用于 10 月。在预测 10 月份的客户流失可能性时,应修正/压缩/平均市场系数。
这是一个不太人为的例子。在估计选民在 2012 年选举中投票的可能性时,我们可以使用 2000、2004 和 2008 年选举的选民级别数据来训练投票率的逻辑回归。如果“政党”是输入,由于外生情况(独特的政治环境),2000 年和 2004 年的系数可能与 2008 年的政党系数有显着差异。在估计给定选民的 2012 年投票可能性时,我们需要修剪/压缩/平均政党系数,以“消除”难以量化的特定选举年的差异。
谁能指出我正确的方向?关于如何更好地提出这个问题的任何指导?我应该使用什么术语?在此先感谢您的帮助。