如何处理不平衡的文本数据

数据挖掘 分类 nlp 阶级失衡 文本分类
2022-03-03 11:34:27

我正在解决一个问题,我必须根据产品描述将产品分为多个类别(不止一个)。例如:

“Tresemme 洗发水和护发素 - 不含硫酸盐”= 个人卫生用品
“薰衣草香味洗手液和保湿霜”= 个人卫生
用品“Doritos Ranch 风味 18 盎司大型派对装”= 零食
“18 岁以上成人绘画和工艺套件”= 艺术和工艺

但是,我的训练数据集高度不平衡。少数类只有 10 条记录,而有一类有 3,000 条记录。总共 50,000 条记录。

任何人都可以提出任何好的技术来处理文本数据的不平衡吗?

谢谢,GD

1个回答