如何创建训练集并将其分类为正面或负面

数据挖掘 nlp 情绪分析
2022-03-07 09:25:40
  1. 我正在尝试为自定义数据(政府部门特定数据)创建情绪分析算法,而不像任何其他社交媒体数据等。数据存在,但我需要将数据分类为正面或负面。
  2. 我的要求是使用情绪分析算法将测试数据分类为正面或负面。
  3. 对我来说,最大的挑战是获取我可以获得的类似的政府数据集。但我需要准备训练数据集。为此,我需要将训练数据集分类为正面或负面。
  4. 我需要在什么基础上将数据集分类为正面或负面。我问这个问题的原因是准备一个好的训练数据集对于提高我的情绪分析算法的准确性非常重要。
  5. 我已经提出了我的情绪分析算法,但确实需要准备一组强大的训练数据(分类为正面或负面)。

专家 - 我是机器学习领域的新手,我需要来自研究人员和专家的建议。

2个回答

在您的特定域中获得高质量数据集的唯一方法是手动进行。没有其他方法可以为您提供任意域中文本的情感标签。如果存在这样的方法,您为什么还要费心创建自己的模型。

您可能应该找到/雇用可以为您完成这项工作的人。将情感元数据添加到文本中就像在 excel 中创建一个附加列一样简单。但是您也可以通过创建一个显示句子的小应用程序并让用户决定它是什么情绪(例如,通过向左或向右滑动)来平滑这个过程。找一群愿意每天分类 10 个句子的人,你的数据集就会稳步增长。更好的是,应用一点游戏化,给人们积分或排名,并奖励表现最好的用户,以提高他们的表现。

请记住,如果这些文本确实是特定领域的,您可能需要领域专家来进行分类。

当有足够的训练数据时,您可以学习预测输出的(简单)。然后你可以让人类分类器专注于低置信度的句子,假设高置信度的自动分类是正确的。

您可以使用 SentiWordNet 对数据进行分类。SentiWordNet 为 WordNet 的每个同义词集分配三个情感分数:积极性、消极性、客观性。