数据挖掘 - 生产中模型的性能与训练测试数据有很大差异 - 吾爱随笔录

我想知道是否有人对从哪里开始挖掘这个问题有任何建议。我有一个经过开发的模型，所有训练/cv/测试数据集的准确性和 F 分数现在都在 95% 以上。整个开发数据集大约有 60k 个样本，其中正样本和负样本各占 2/3。这些样本基于去年 1 月至 11 月的提取物。最终测试结果是：

精度：0.9751 召回率：0.9320 准确率 0.9693 F 分数 0.9531

然而，生产中的第一次运行显示出非常高的精度：95%+，但召回率非常低：~50%。准确度 = 48%，FScore = 68%。

小组对此的任何想法，在哪里寻找，潜在的原因。我们将在接下来的几个月内运行此程序，因为圣诞节期间我们可能会出现异常变化，但我们感到惊讶。任何帮助表示赞赏。谢谢