多类别分类算法的训练数据

数据挖掘 神经网络 nlp 多类分类 lstm
2022-03-02 08:41:54

我正在整理一个多类别分类算法。由于它是 NLP,因此训练数据非常简单,一列用于标签,另一列用于文本。但是,因为它是 NLP,所以一些训练记录可以适合多个类别。我应该遍历并有多个条目(相同的数据,不同的标签)还是应该每条数据只分配一个类别?

1个回答

不,完全有可能在多个类别上进行训练。但是,您需要的是这些类别的详尽列表(即在监督学习中)。

假设您正在尝试将句子与主题相关联,并且您有一个可能的主题列表topics = ['sports', 'soccer', 'politics']听起来您的数据看起来像这样:

sentence                       | topics
-------------------------------|----------------------------------
'Barack Obama loves soccer'    | ['politics', 'sports', 'soccer']
'The parliament is important'  | ['politics']
'Soccer is fun'                | ['sports', 'soccer']

然后你需要对主题进行一次热编码:

X = [['Barack Obama loves soccer'], ['The parliament is important'], ['Soccer is fun']]

Y = [[1, 1, 1], [1, 0, 0], [0, 1, 1]]

然后你训练一个神经网络来预测不是一个而是三个(=主题数)值。