人工智能 - 文本分类如何降低人力成本？ - 吾爱随笔录

文本分类如何降低人力成本？

人工智能分类公用事业

2021-10-30 05:00:24

（对于标题过于宽泛且问题不是“技术性”，我深表歉意）

假设我的任务是给新闻文章贴标签。这意味着给定一篇新闻文章，我应该分类该新闻属于哪个类别。例如，“C罗进了一个梦幻般的进球”应该归类在“体育”下。

经过大量实验，我想出了一个模型来为我做这个标签。比如说，它有 50% 的验证准确率。（假设它是最好的）

所以我为我的任务部署了这个模型（显然是在看不见的数据上）。当然，从概率的角度来看，我应该得到大约 50% 的文章正确标记。但是我怎么知道哪些标签实际上是正确的，哪些标签需要更正呢？如果我要手动检查（例如，通过雇用人员这样做），部署这样的模型比仅仅雇用人员直接进行分类更好吗？（不要忘记开发模型的人力成本本来可以节省。）

2个回答

有几个优点：

一些文本分类系统比50% 准确得多。例如，大多数垃圾邮件分类系统的准确率为 99.9% 或更高。让员工查看这些标签几乎没有价值。
许多文本分类系统可以输出置信度和标签。您可以有选择地让员工仅查看模型不信任的示例。通常这些数量很少。
您通常可以通过让文本分类模型对一些看不见的数据进行分类，然后让人们检查工作来测试文本分类模型。如果您对少量示例执行此操作，则可以确保系统正常工作。然后，您可以自信地在大量未标记的示例上使用该系统，并合理地确定它的准确性。
对于文本，衡量不同的人对评分的认同程度也很重要。你不可能做得比这更好，因为这让你对你正在处理的特定问题的主观性有了一个概念。如果人们有 50% 的时间不同意，也许你可以接受自动化系统 50% 的失败率，而不必费心检查它的工作。

首先更真实的是，您通常期望文章预测的验证准确率超过 50%。

回到您的问题，如果您正在寻找标签文章的长期解决方案，您绝对应该尝试自动化此过程。至少从长远的角度来看，部署这种模型的成本不应超过雇佣员工手动执行此操作的成本。

其它你可能感兴趣的问题

上一篇DQN 中的目标 Q 值是多少？下一篇如果仅针对一个对手进行训练，强化学习代理如何进行泛化？