尽管我仍然被认为是这个主题的新手,但我正在开始我对文本分类的本科研究。我从 Twitter 收集了超过 20K 的数据。我一直在尝试将数据标记为 3 种情绪,积极、消极和中性。但是,由于我缺乏该领域的知识,我经常发现很难确定一条推文是被归类为正面、负面还是中性。
我的主管有一个具有心理学背景的人可以帮助我标记数据而不是语言学。我知道情感分析是自然语言处理任务的一部分,如果我向语言学寻求帮助会更有意义,但与此同时,随着我阅读更多论文,通常也会在心理学中研究情感。有人有建议吗?先感谢您!
尽管我仍然被认为是这个主题的新手,但我正在开始我对文本分类的本科研究。我从 Twitter 收集了超过 20K 的数据。我一直在尝试将数据标记为 3 种情绪,积极、消极和中性。但是,由于我缺乏该领域的知识,我经常发现很难确定一条推文是被归类为正面、负面还是中性。
我的主管有一个具有心理学背景的人可以帮助我标记数据而不是语言学。我知道情感分析是自然语言处理任务的一部分,如果我向语言学寻求帮助会更有意义,但与此同时,随着我阅读更多论文,通常也会在心理学中研究情感。有人有建议吗?先感谢您!
之所以提到心理学,是因为心理学在将数字分数分配给主观主题方面有着悠久的历史。最重要的概念之一是评分者间信度,即不同的人在多大程度上同意解释。
其他有用的概念是主观程度和极性程度(相对于分配二元极性标签)。这就是 Python 的TextBlob 包对情感建模的方式。