应对人口不稳定

数据挖掘 机器学习 分类 大数据
2021-09-18 07:23:39

我正在使用机器学习来正确预测二进制分类,使用我大约每月收到一次的输入数据集。

这个想法是我在一个月的数据上训练、测试和验证分类器,然后用它来分类另一个月。我是否反复将下个月的数据添加到训练数据集中并扰乱我的分类器,还有待商榷。我在这方面花了一点时间,并且有一些效果很好的东西,但在某些月份它比其他月份效果更好。我使用的是 RandomForest 或 LinearSVC(penalty='l1'),因为我有很多功能,大约 400,000 次观察和有限的计算能力。

我对生成输入数据集的过程没有太多了解,根据之前的分析,我不相信他们的质量控制。让我担心的是,一个月内我可能会收到一个与我一直在训练的数据非常不同的数据集,除非类的分布完全不同,否则我不会真正知道。

我确信我不是第一个有这种担心的人,但我找不到太多关于它的信息,所以也许我在这里被误导了。我找到了人口稳定指数,这是一种正确的想法,但我不确定,因为它取决于箱大小。

所以我的问题:

  • 通常如何处理这样的担忧?
  • 你能指出一些对我有帮助的想法/案例研究吗?
  • 在分类方面我可以做些什么来使我的分类器对人口不稳定性更加稳健?
1个回答

在时间序列中使用一个时间块来预测下一个块可能会出现重大问题。例如,如果您使用 9 月和 10 月的数据来预测 11 月和 12 月的零售购物支出,那就大错特错了。相反,您需要注意感恩节和圣诞节之间购物增加的年度趋势,以便做出正确的预测。

因此,虽然这种方式避开了您提出的问题,但我认为如果您难以用一个月来预测下个月,您需要开始关注长期趋势,尤其是年度趋势。在调查人口不稳定之前,我会先对此进行调查。