数据挖掘 - 提取二元结果的关键短语 - 吾爱随笔录

数据挖掘 nlp 半监督学习

2022-03-07 03:17:02

我有一组导致二元结果（接受/拒绝）的短语，我想知道什么技术最有助于提取最有可能确定结果的关键短语，因为我有一组训练数据英语短语和观察到的结果。

为了说明这个想法，让我举一个简单的例子：

公认

关键词：很好，很好

关键词：不，不，不

1个回答

您可以使用多种技术，具体取决于您想做什么。

如果您的目标是深入了解每个组中使用的短语，那么我建议您查找每个类中出现的最常见的不同长度的N-gram 。这是一个相关的 stackoverflow 问题，展示了如何使用nltk和sklearn提取这些问题。

如果您的目标是预测给定短语的结果（接受/拒绝），那么我建议将其设置为二元分类问题。由于这些短语很短，您可以从 Bag of Words 方法开始 -用于处理文本数据的 scikit-learn 文档是一个很好的示例，可以指导您完成这些步骤。

其它你可能感兴趣的问题