我正在研究一个分类问题,预测是否会接受拨款申请。我正在训练的数据是从 2005 年到 2008 年。我想预测 2008 年之后的任何时间。
我遇到的问题是成功的拨款申请的比例随着时间的推移而不同。例如,训练集中的成功率为 20%。但根据我在 2008 年之后使用的时间段,成功率可能在 10% 到 30% 之间。这导致预测不足或过度。
由于拨款申请的成功率不是恒定的,我如何在我的模型中解释这一点?
我正在研究一个分类问题,预测是否会接受拨款申请。我正在训练的数据是从 2005 年到 2008 年。我想预测 2008 年之后的任何时间。
我遇到的问题是成功的拨款申请的比例随着时间的推移而不同。例如,训练集中的成功率为 20%。但根据我在 2008 年之后使用的时间段,成功率可能在 10% 到 30% 之间。这导致预测不足或过度。
由于拨款申请的成功率不是恒定的,我如何在我的模型中解释这一点?
这种现象称为协变量偏移,它可以影响特征、目标,你可以命名它。
当测试数据分布与训练数据不同时,就会发生这种情况。或者您的问题是时间序列问题,其中时间是最大的自变量。
第一种情况:没有模型可以适应目标的行为变化。您必须等到从当前时间收集到足够的数据,然后重新训练一个相当令人满意的模型,或者进行在线学习,这意味着您预测的每个数据点都被输入模型进行训练。那样; 如果目标发生变化,您的模型将使用每个新数据点进行更新。
第二种情况:假设您的目标变量每 2 年有上升趋势,然后下降。这是我正在做的一个假设。您的任务是检测影响您的目标的时间变化并对其进行建模。您创建的模型考虑到每 2 年,您的目标就会下降。等等。这就是我们所说的时间序列问题,其中时间是目标变化的最大贡献者。
如果第二种情况对您没有意义,并且与您的问题无关,那么请查看第一种情况。
我不认为在我做过的任何模型中,未来每个时间段的事件率都与训练期相同。模型的重点,在这种情况下是二进制分类,是找到事件和非事件(0 和 1)。预测周期的事件率(余额)与训练模型的事件率无关。在二元分类模型中,每条记录都是独立评分的。训练数据的事件率影响训练。
如果模型在某些时期表现不佳,请分析原因。这意味着一些记录被错误地分类。可能是使用的阈值,可能是数据漂移,可能是模型很弱,某些模式变得更加普遍。
也许您需要重新训练模型(以及是否过度/欠采样)或寻找新特征或更改阈值或其他操作,但不是因为未来时期的事件率。这将是因为模型没有达到您要解决的问题。