我正在解决一个问题,我必须根据产品描述将产品分为多个类别(不止一个)。例如:
“Tresemme 洗发水和护发素 - 不含硫酸盐”= 个人卫生用品
“薰衣草香味洗手液和保湿霜”= 个人卫生
用品“Doritos Ranch 风味 18 盎司大型派对装”= 零食
“18 岁以上成人绘画和工艺套件”= 艺术和工艺
但是,我的训练数据集高度不平衡。少数类只有 10 条记录,而有一类有 3,000 条记录。总共 50,000 条记录。
任何人都可以提出任何好的技术来处理文本数据的不平衡吗?
谢谢,GD