在文本中查找多个类别的承诺

数据挖掘 nlp
2022-03-09 17:56:02

我有一个客户与代理的对话(没有标点符号)。代理人向客户作出的承诺有几类短语(回电、预约等)。它是手动完成的。共有12个类别。现在我正在考虑为此创建一个算法。我正在考虑分两步完成这项任务。

  1. 第一步,我需要创建一个算法,它可以找到所有承诺的结束和开始。该算法必须插入一个开始标签和一个结束标签。
  2. 第二步是创建一个分类器,将承诺标记为必要的类别。

据我了解,第二步是众所周知的,这称为文本分类。但是第一步,我找不到任何文章和 github 存储库。但我认为这是一项重要的 NLP 任务,必须有这方面的信息。也许有同时解决两个步骤的方法?

更新

只需对代理人的成绩单进行抽样(实际上更困难):

hi my name is ben how can i help you yes good what about i can help probably yes sir do you have a problem with internet connection i see let do you need a help at place okay i see so what i can do i can arrange appointment with technical will it be good for you great can i help you with something else you okey okey to have a great day you too

这里的承诺是

i can arrange appointment with technical
1个回答

那将是一个序列标记任务,最常见的类型是命名实体识别,你会发现很多关于它的例子,但你可以用你的数据训练一个自定义系统。传统的方法是Conditional Random Fields,有很多可用的库。

旁注:通常使用单个 CRF 模型同时进行检测和标记(您的步骤 1 和 2)。