数据挖掘 - 训练/测试数据集和模型 - 吾爱随笔录

训练/测试数据集和模型

数据挖掘机器学习预测建模训练数据科学模型

2022-02-13 14:04:07

我想问你如何处理训练和测试数据集。我有未标记的数据。它们是短文本（最多 100 个字符），我需要了解他们的情绪。为此，我手动分配标签 (1,0,-1)。但是，我有超过 2000 条文本，在考虑了一个小的标签集之后，我想找到一种自动执行它的方法。我的想法是从一开始就将数据集拆分为训练和测试，并使用训练数据集来标记数据。不幸的是，我还没有理解如何为剩余的文本分配标签，即如何预测测试数据集中数据的情绪。

您能否告诉我接下来的步骤是什么，如果您有任何您认为有助于更好理解的内容，建议您举个例子？非常感谢

2个回答

您希望手动标记某些案例，然后将该“手动标记”扩展到其余数据。

这是一项由您事先手动标记的监督学习练习。

假设您已经对一个随机的、大小合适的训练数据集进行了分区。现在您需要通过经典建模管道对分类算法进行建模，并使用该模型来预测其余数据中的分类/标签。

所以是的，这很容易实现，但是对文本分类模型进行建模并非易事，您需要了解基本建模。

以下是基本步骤，请阅读您不知道如何执行的每个步骤：

将您的数据拆分为训练集（您将在此数据上建模）、测试集和目标集。
手动标记您的训练和测试集。
选择您要使用的分类算法类型。您可以使用经典的 ML 模型，但这涉及大量标记化数据并将其转换为数字组件。您还可以使用更高级的深度学习技术进行文本分类，例如 BERT。
创建一个合适的转换器来整理您的数据并将其转换为您选择的算法的正确格式。
在手动标记的训练数据上训练模型。
使用测试数据集评估和优化您的性能。
使用最终模型预测目标集中的标签。

了解自动标签的质量只会与您的手动标签一样好。

您正在谈论的问题是无监督的情绪分析。你可以试试：

VADER：它给出了句子的极性，你可以根据它来标记你的训练数据。但是这个库有一定的局限性——它不能感知讽刺，有时准确度也不是很好。但是为了初步了解，你可以查看这个库。
Text Blob - nltk 的库可用于情感分析（意见挖掘）。它可以做的不仅仅是情绪分析。

其它你可能感兴趣的问题

上一篇AttributeError：“DataFrame”对象没有属性“ix” 下一篇机器学习预测单个位置的污染