如何为一组句子实现多类分类器?

数据挖掘 机器学习 分类 nlp 情绪分析
2022-01-27 10:19:02

我目前参与了一个方面级别的情感分析项目,并使用斯坦福 CoreNLP 工具包来实现该系统。我对这些概念的了解非常有限,我正在寻求您的帮助以澄清与机器学习和分类相关的一些事情。

我有一组句子,它们是旅行评论,需要根据不同的标签(环境、风景、成本、娱乐等)进行分类。这是通过检查是否在句子中找到与上述类别相关的某些方面术语来完成的。

现在,我想训练一个分类器(我使用的是斯坦福分类器),将这些句子分类到各自的类别,我有一个包含大约 3000 多个句子的训练数据集。

我的问题是,一个句子可能包含不仅属于一个方面,而且属于多个方面类别的方面术语。在这种情况下,我希望分类器一次对它们进行分类。

例如:

Review Sentence:

  On the upside it was very **calm** there and good for **swimming** 

Categories

  AMBIANCE, ENTERTAINMENT 

我试图以这种方式预处理训练数据集,并训练了一个分类器。但是当我试图让它对包含属于两个不同类别的方面术语的句子进行分类时,它只识别了一个类别。

训练数据集的格式如下

sentence1    [tab]   category1
sentence2    [tab]   category1, category2
sentence3    [tab]   category2, category3

有人可以告诉我我的方法是否错误吗?我怎样才能达到预期的输出?我将非常感谢您对此事的任何帮助,因为我目前正处于项目的这个阶段。

1个回答

我在想 Apriori 是否更适合您的目的。

供您考虑:1)将训练句子标记为词袋:Review Sentence | 上行 | 冷静 | 游泳 |

2)标记词袋的正确结果。

3) Apriori 应该产生 1 条环境规则和 1 条娱乐规则。

希望这可以帮助。