我正在使用敏感和稀缺的数据创建一个监督模型。为了便于讨论,我假设我正在创建一个用于识别狗的模型,从而简化了问题陈述。
假设我正在创建一个模型来识别图片中的狗。我用很少的正面和负面的例子来训练它。我无法收集大量数据,因为它很稀缺。因此,模型精度不好(比如 f-score = 0.64)。我在生产中部署了这个模型。当模型预测时,我将模型的输出标记为“真阳性”和“假阳性”。然后我再次使用这些标签训练模型。
我用这种方法看到的问题是我不知道模型何时错过了一张狗图片,即“假阴性”,因此我无法在此类示例上重新训练模型。因此,目前的方法只会提高我的模型的精度(TP/(TP+FP))而不是召回率(TP/(TP+FN))。
请建议
- 如何提高模型的召回率
- 你觉得我的方法还有其他问题吗