我正在使用机器学习来正确预测二进制分类,使用我大约每月收到一次的输入数据集。
这个想法是我在一个月的数据上训练、测试和验证分类器,然后用它来分类另一个月。我是否反复将下个月的数据添加到训练数据集中并扰乱我的分类器,还有待商榷。我在这方面花了一点时间,并且有一些效果很好的东西,但在某些月份它比其他月份效果更好。我使用的是 RandomForest 或 LinearSVC(penalty='l1'),因为我有很多功能,大约 400,000 次观察和有限的计算能力。
我对生成输入数据集的过程没有太多了解,根据之前的分析,我不相信他们的质量控制。让我担心的是,一个月内我可能会收到一个与我一直在训练的数据非常不同的数据集,除非类的分布完全不同,否则我不会真正知道。
我确信我不是第一个有这种担心的人,但我找不到太多关于它的信息,所以也许我在这里被误导了。我找到了人口稳定指数,这是一种正确的想法,但我不确定,因为它取决于箱大小。
所以我的问题:
- 通常如何处理这样的担忧?
- 你能指出一些对我有帮助的想法/案例研究吗?
- 在分类方面我可以做些什么来使我的分类器对人口不稳定性更加稳健?