我正在尝试使用 DBSMOTE(基于密度的合成过采样 TEqnique)来处理短文本数据集——具体来说是推文。这将用于在多类分类模型中训练分类器模型。这将在特征级别增强中完成,使用 TF-IDF 作为特征。不过,我已经读过,要在 NLP 上使用 SMOTE,必须减少特征向量的维度。在 SMOTE 系列算法中使用的特征向量的最佳大小是多少?
类似问题:您如何将 SMOTE 应用于文本分类?
DBSMOTE 代码:https ://rdrr.io/cran/smotefamily/man/DBSMOTE.html
DBSMOTE 论文:https ://link.springer.com/article/10.1007/s10489-011-0287-y