我有一个包含数千条关于支持请求的记录的电子表格。案例编号、问题描述等
我们的目标是将这些记录分为许多类别,以便为它们分配正确的优先级。
例子:
- 客户不能使用取货功能。
- 客户无法拨打 911 或长途号码。
对于第 1 项,我决定使用一个名为 Best Effort 的类别,而对于第 2 项,我决定使用一个紧急类别。
- 客户无法使用取货功能,BEST_EFFORT
- 客户无法拨打 911 或长途电话,紧急
我打算建立一个单词词典。
best_effort = ['pickup','record','conference']
urgent = ['system is down','911', 'can't dial emergency','call center is down']
我的目标是使用TFIDF,然后使用余弦相似度来找到最佳匹配和类别。这有意义吗?对此类信息进行分类有更好的建议吗?