文本分类如何降低人力成本?

人工智能 分类 公用事业
2021-10-30 05:00:24

(对于标题过于宽泛且问题不是“技术性”,我深表歉意)

假设我的任务是给新闻文章贴标签。这意味着给定一篇新闻文章,我应该分类该新闻属于哪个类别。例如,“C罗进了一个梦幻般的进球”应该归类在“体育”下。

经过大量实验,我想出了一个模型来为我做这个标签。比如说,它有 50% 的验证准确率。(假设它是最好的)

所以我为我的任务部署了这个模型(显然是在看不见的数据上)。当然,从概率的角度来看,我应该得到大约 50% 的文章正确标记。但是我怎么知道哪些标签实际上是正确的,哪些标签需要更正呢?如果我要手动检查(例如,通过雇用人员这样做),部署这样的模型比仅仅雇用人员直接进行分类更好吗?(不要忘记开发模型的人力成本本来可以节省。)

2个回答

有几个优点:

  1. 一些文本分类系统50% 准确得多。例如,大多数垃圾邮件分类系统的准确率为 99.9% 或更高。让员工查看这些标签几乎没有价值。
  2. 许多文本分类系统可以输出置信度和标签。您可以有选择地让员工仅查看模型不信任的示例。通常这些数量很少。
  3. 您通常可以通过让文本分类模型对一些看不见的数据进行分类,然后让人们检查工作来测试文本分类模型。如果您对少量示例执行此操作,则可以确保系统正常工作。然后,您可以自信地在大量未标记的示例上使用该系统,并合理地确定它的准确性。
  4. 对于文本,衡量不同的对评分的认同程度也很重要。你不可能做得比这更好,因为这让你对你正在处理的特定问题的主观性有了一个概念。如果人们有 50% 的时间不同意,也许你可以接受自动化系统 50% 的失败率,而不必费心检查它的工作。

首先更真实的是,您通常期望文章预测的验证准确率超过 50%。

回到您的问题,如果您正在寻找标签文章的长期解决方案,您绝对应该尝试自动化此过程。至少从长远的角度来看,部署这种模型的成本不应超过雇佣员工手动执行此操作的成本。