我想知道是否有人对从哪里开始挖掘这个问题有任何建议。我有一个经过开发的模型,所有训练/cv/测试数据集的准确性和 F 分数现在都在 95% 以上。整个开发数据集大约有 60k 个样本,其中正样本和负样本各占 2/3。这些样本基于去年 1 月至 11 月的提取物。最终测试结果是:
精度:0.9751 召回率:0.9320 准确率 0.9693 F 分数 0.9531
然而,生产中的第一次运行显示出非常高的精度:95%+,但召回率非常低:~50%。准确度 = 48%,FScore = 68%。
小组对此的任何想法,在哪里寻找,潜在的原因。我们将在接下来的几个月内运行此程序,因为圣诞节期间我们可能会出现异常变化,但我们感到惊讶。任何帮助表示赞赏。谢谢