我在种群 A 上训练了一个树集成分类器 (XGBOOST),对其进行了验证,我对其准确性感到满意 (AUC 0.78)。现在我试图将它转移到一个稍微不同的群体 B,并且模型的准确性严重恶化(AUC 0.68)
我尝试通过简单的单变量分析(比较分布)和比较每个特征与标签的相关性来隔离哪些特征没有很好地转移,但找不到任何明显的东西。
有没有办法调试和理解在 A 处持有的模型假设在 B 处不成立?我考虑过比较 A 和 B 中验证群体的每棵树中每个节点的标签分布,从而测试模型假设在 B 处实际持有的所有条件概率。
这会帮助我理解什么坏了?还是我会得到很多微小的差异?还有其他一些我想念的简单方法吗?
(与本次调查相关机器学习学会在未来的数据分布上很好地工作?)