数据挖掘 - 多类别分类算法的训练数据 - 吾爱随笔录

多类别分类算法的训练数据

数据挖掘神经网络 nlp 多类分类 lstm

2022-03-02 08:41:54

我正在整理一个多类别分类算法。由于它是 NLP，因此训练数据非常简单，一列用于标签，另一列用于文本。但是，因为它是 NLP，所以一些训练记录可以适合多个类别。我应该遍历并有多个条目（相同的数据，不同的标签）还是应该每条数据只分配一个类别？

1个回答

不，完全有可能在多个类别上进行训练。但是，您需要的是这些类别的详尽列表（即在监督学习中）。

假设您正在尝试将句子与主题相关联，并且您有一个可能的主题列表topics = ['sports', 'soccer', 'politics']。听起来您的数据看起来像这样：

sentence                       | topics
-------------------------------|----------------------------------
'Barack Obama loves soccer'    | ['politics', 'sports', 'soccer']
'The parliament is important'  | ['politics']
'Soccer is fun'                | ['sports', 'soccer']

然后你需要对主题进行一次热编码：

X = [['Barack Obama loves soccer'], ['The parliament is important'], ['Soccer is fun']]

Y = [[1, 1, 1], [1, 0, 0], [0, 1, 1]]

然后你训练一个神经网络来预测不是一个而是三个（=主题数）值。

其它你可能感兴趣的问题

上一篇如何在 Keras 中输入我的 JSON 数据集以进行字符级文本分类下一篇在自定义训练的 word2vecs 上使用预训练的词向量