基于内容的对话分类

机器算法验证 机器学习 分类 文本挖掘
2022-03-14 08:09:57

我希望能够设计一个分类器,可以区分不同类型的对话(不一定能说明情绪、诚意或结果,这有点牵强)。

例如,要知道在 50 个对话样本中,10 个涉及双方都在寻找有关未来事件的信息,30 个似乎没有目标,10 个涉及一方从另一方寻求有关过去事件的信息(实际上,算法会分类不考虑实际情况,分为Ⅰ、Ⅱ、Ⅲ类)。

换句话说,演讲者的顺序与内容一起很重要,也许通过在算法中植入某些关键字来帮助。

是否有一个分类系统可以以相当高的精度执行这项任务?

1个回答

这就是我将如何处理它。您实际上需要检查文本是否属于 I 类或 III 类(否则它将是 II 类)。

  • 首先,为 I 类和 III 类定义一个词袋。您可以手动执行此操作
  • 对于每个文本,计算这两个类中单词的 tf-idf 并将其相加(得到两个和)。
  • 如果这两个总和中的一些高于某个预定义的阈值,则它属于该类。

如果你有一个足够大的学习数据集,你可以很容易地找出这两个词袋是什么,以及它们的两个阈值。