我正在整理一个多类别分类算法。由于它是 NLP,因此训练数据非常简单,一列用于标签,另一列用于文本。但是,因为它是 NLP,所以一些训练记录可以适合多个类别。我应该遍历并有多个条目(相同的数据,不同的标签)还是应该每条数据只分配一个类别?
多类别分类算法的训练数据
数据挖掘
神经网络
nlp
多类分类
lstm
2022-03-02 08:41:54
1个回答
不,完全有可能在多个类别上进行训练。但是,您需要的是这些类别的详尽列表(即在监督学习中)。
假设您正在尝试将句子与主题相关联,并且您有一个可能的主题列表topics = ['sports', 'soccer', 'politics']。听起来您的数据看起来像这样:
sentence | topics
-------------------------------|----------------------------------
'Barack Obama loves soccer' | ['politics', 'sports', 'soccer']
'The parliament is important' | ['politics']
'Soccer is fun' | ['sports', 'soccer']
然后你需要对主题进行一次热编码:
X = [['Barack Obama loves soccer'], ['The parliament is important'], ['Soccer is fun']]
Y = [[1, 1, 1], [1, 0, 0], [0, 1, 1]]
然后你训练一个神经网络来预测不是一个而是三个(=主题数)值。