如何对支持呼叫文本进行分类?

数据挖掘 分类 数据集 nlp 文本
2022-02-11 10:16:31

我有一个包含数千条关于支持请求的记录的电子表格。案例编号、问题描述等

我们的目标是将这些记录分为许多类别,以便为它们分配正确的优先级。

例子:

  • 客户不能使用取货功能。
  • 客户无法拨打 911 或长途号码。

对于第 1 项,我决定使用一个名为 Best Effort 的类别,而对于第 2 项,我决定使用一个紧急类别。

  • 客户无法使用取货功能,BEST_EFFORT
  • 客户无法拨打 911 或长途电话,紧急

我打算建立一个单词词典。

best_effort = ['pickup','record','conference']
urgent = ['system is down','911', 'can't dial emergency','call center is down']

我的目标是使用TFIDF,然后使用余弦相似度来找到最佳匹配和类别。这有意义吗?对此类信息进行分类有更好的建议吗?

1个回答

您可能希望获取原始数据(或者更确切地说是其中的随机子集),然后手动标记您的实例(为每一行分配一个标签,BEST_EFFORT 或 URGENT),而不是使用指示目标类的外部关键字字典. 这将成为您的训练数据- 每行数据都可以转换为一个词袋向量,指示该特定文本中单词的存在/不存在。您可以在此数据上训练分类器,例如朴素贝叶斯分类器,然后可以在保留的看不见的测试数据上对其进行测试。所提出方法的优点是:(1)自动计算特征与手工创建的字典;(2) 类的概率/加权指标与二进制字典指标。