文本数据的多类分类

数据挖掘 深度学习 多类分类 文本
2021-09-21 03:24:34

我有一个问题陈述,我必须将文本数据分类为各种类别,但训练数据非常少(4 个类别的 250-300 个数据点)。我对使用什么方法感到困惑?还有什么方法可以用深度学习来解决这个问题,用这么小的 tarining 数据?

2个回答

使用传统的机器学习算法,300 个数据点足以提供良好/平均的结果。您应该测试SVM,因为它们被认为有利于文本分类。

但是,当您拥有大量数据时,通常会使用深度学习,而这里并非如此。所以我不会推荐它来完成你的任务。

您可以尝试使用词袋方法从文本中提取特征,并应用任何有监督的 ML 分类器(如朴素贝叶斯等)进行分类。

深度学习需要大量数据,所以我认为在这种情况下不能应用它。