(对于标题过于宽泛且问题不是“技术性”,我深表歉意)
假设我的任务是给新闻文章贴标签。这意味着给定一篇新闻文章,我应该分类该新闻属于哪个类别。例如,“C罗进了一个梦幻般的进球”应该归类在“体育”下。
经过大量实验,我想出了一个模型来为我做这个标签。比如说,它有 50% 的验证准确率。(假设它是最好的)
所以我为我的任务部署了这个模型(显然是在看不见的数据上)。当然,从概率的角度来看,我应该得到大约 50% 的文章正确标记。但是我怎么知道哪些标签实际上是正确的,哪些标签需要更正呢?如果我要手动检查(例如,通过雇用人员这样做),部署这样的模型比仅仅雇用人员直接进行分类更好吗?(不要忘记开发模型的人力成本本来可以节省。)