我有一个数据集,其中包含 50 个类的约 100,000 个样本。我一直在使用带有 RBF 内核的 SVM 来训练和预测新数据。但问题是数据集偏向于不同的类别。
例如,1 级 - 30 级(各约 3%)、31 级 - 45 级(各约 0.6%)、46 级 - 50 级(各约 0.2%)
我看到该模型往往很少预测训练集中出现频率较低的类,即使测试集与训练集具有相同的类分布。
我知道有诸如“欠采样”之类的技术,其中多数类被缩减为次要类。但是,这适用于有这么多不同类别的地方吗?还有其他方法可以帮助处理这种情况吗?