用于情感分析的标签数据集

数据挖掘 机器学习 数据集 情绪分析
2022-03-04 00:50:26

我是这个领域的初学者。我有一个废弃的评论数据集。它包含评论 socre (1 - 10) 和评论内容。我将根据评论分数标记评论,如下所示:

0-2 -> 负,3-6 -> 中性,7-10 -> 正

是否可以像这样直接标记内容?有什么具体的流程可以做到这一点吗?我需要验证我的标签吗?

1个回答

是否可以像这样直接标记内容?有什么具体的流程可以做到这一点吗?我需要验证我的标签吗?

是的,以这种方式定义情感类绝对是可能的。人们可以合理地假设评论分数是评论情绪的一个很好的近似值。

它只是一种定义黄金标准的方法,没有特定的过程。重要的是要认识到定义黄金标准是设计任务本身的重要部分,而不是设计一个试图解决任务的系统。

在某些情况下,证明任何用作黄金标准的东西都对应于任务的目标是有意义的,但在这种情况下,它很简单:可以安全地假设写评论的用户给出的分数值对应于他们的整体情绪。

即使这是一个合理的设计,注意限制也很重要:

  • 通过将分数离散化为 3 类,简化了分数信息。例如,7 和 10 之间的差异丢失了。
  • 任意的截止点会导致阈值效应。通常情况下,2 和 3 之间的差异比 3 和 6 之间的差异要小,但是类颠倒了这种关系。

请注意,情感分析不一定是分类任务(预测分类变量),也可以定义为回归任务(预测数值变量)。在这种情况下,目标变量可以是分数本身,这样可以避免上面提到的一些问题。这也是一种设计选择,主要取决于应用程序的用途。