是否有任何库可用于平衡不平衡的文本数据集?

数据挖掘 深度学习 nlp 预处理 文本
2022-03-07 16:56:06

我有一个类似于新闻组数据集的文本数据集,数据集的问题是它高度不平衡。那么是否有任何易于构建的库可以通过函数调用进行上采样或下采样?

不平衡数据集

2个回答
from imblearn.over_sampling import ADASYN, SMOTE, RandomOverSampler
from imblearn.under_sampling import NearMiss, RandomUnderSampler

ros = RandomOverSampler(random_state=777)
X_ROS, y_ROS = ros.fit_sample(testing_tfidf, testing_target)

smt = SMOTE(random_state=777, k_neighbors=1)
rus = RandomUnderSampler(random_state=777)

好文章供参考

这是一个在 R 中处理这个问题的好博客。 类不平衡