我有一组导致二元结果(接受/拒绝)的短语,我想知道什么技术最有助于提取最有可能确定结果的关键短语,因为我有一组训练数据英语短语和观察到的结果。
为了说明这个想法,让我举一个简单的例子:
公认
- 听起来很棒
- 那太好了
- 没关系
关键词:很好,很好
被拒绝
- 我不知道
- 我不这么认为
- 没门
关键词:不,不,不
我有一组导致二元结果(接受/拒绝)的短语,我想知道什么技术最有助于提取最有可能确定结果的关键短语,因为我有一组训练数据英语短语和观察到的结果。
为了说明这个想法,让我举一个简单的例子:
关键词:很好,很好
关键词:不,不,不
您可以使用多种技术,具体取决于您想做什么。
如果您的目标是深入了解每个组中使用的短语,那么我建议您查找每个类中出现的最常见的不同长度的N-gram 。这是一个相关的 stackoverflow 问题,展示了如何使用nltk和sklearn提取这些问题。
如果您的目标是预测给定短语的结果(接受/拒绝),那么我建议将其设置为二元分类问题。由于这些短语很短,您可以从 Bag of Words 方法开始 -用于处理文本数据的 scikit-learn 文档是一个很好的示例,可以指导您完成这些步骤。