我目前参与了一个方面级别的情感分析项目,并使用斯坦福 CoreNLP 工具包来实现该系统。我对这些概念的了解非常有限,我正在寻求您的帮助以澄清与机器学习和分类相关的一些事情。
我有一组句子,它们是旅行评论,需要根据不同的标签(环境、风景、成本、娱乐等)进行分类。这是通过检查是否在句子中找到与上述类别相关的某些方面术语来完成的。
现在,我想训练一个分类器(我使用的是斯坦福分类器),将这些句子分类到各自的类别,我有一个包含大约 3000 多个句子的训练数据集。
我的问题是,一个句子可能包含不仅属于一个方面,而且属于多个方面类别的方面术语。在这种情况下,我希望分类器一次对它们进行分类。
例如:
Review Sentence:
On the upside it was very **calm** there and good for **swimming**
Categories
AMBIANCE, ENTERTAINMENT
我试图以这种方式预处理训练数据集,并训练了一个分类器。但是当我试图让它对包含属于两个不同类别的方面术语的句子进行分类时,它只识别了一个类别。
训练数据集的格式如下
sentence1 [tab] category1
sentence2 [tab] category1, category2
sentence3 [tab] category2, category3
有人可以告诉我我的方法是否错误吗?我怎样才能达到预期的输出?我将非常感谢您对此事的任何帮助,因为我目前正处于项目的这个阶段。