提取二元结果的关键短语

数据挖掘 nlp 半监督学习
2022-03-07 03:17:02

我有一组导致二元结果(接受/拒绝)的短语,我想知道什么技术最有助于提取最有可能确定结果的关键短语,因为我有一组训练数据英语短语和观察到的结果。

为了说明这个想法,让我举一个简单的例子:

公认

  • 听起来很棒
  • 那太好了
  • 没关系

关键词:很好,很好

被拒绝

  • 我不知道
  • 我不这么认为
  • 没门

关键词:不,不,不

1个回答

您可以使用多种技术,具体取决于您想做什么。

如果您的目标是深入了解每个组中使用的短语,那么我建议您查找每个类中出现的最常见的不同长度的N-gram 。这是一个相关的 stackoverflow 问题,展示了如何使用nltksklearn提取这些问题。

如果您的目标是预测给定短语的结果(接受/拒绝),那么我建议将其设置为二元分类问题。由于这些短语很短,您可以从 Bag of Words 方法开始 -用于处理文本数据的 scikit-learn 文档是一个很好的示例,可以指导您完成这些步骤。