高度不平衡数据集的训练方法

机器算法验证 机器学习 分类 数据挖掘 支持向量机 生物信息学
2022-01-26 06:00:35

我有一个高度不平衡的测试数据集。正面集由 100 个案例组成,而负面集由 1500 个案例组成。在训练方面,我有一个更大的候选池:正训练集有 1200 个案例,负训练集有 12000 个案例。对于这种情况,我有几种选择:

1)对整个训练集使用加权SVM(P:1200,N:12000)

2)使用基于采样训练集(P:1200,N:1200)的SVM,从12000个案例中抽取1200个负例。

对于决定哪种方法更好,是否有任何理论指导?由于测试数据集高度不平衡,我是否也应该使用不平衡的训练集?

2个回答

reddit 最近的一篇文章来看,datapraxis 的回复有趣。

编辑:提到的论文是Haibo He, Edwardo A. Garcia,“Learning from Imbalanced Data”,IEEE Transactions on Knowledge and Data Engineering,第 1263-1284 页,2009 年 9 月(PDF)

成对扩展逻辑回归、基于 ROC 的学习、Boosting 和 Bagging(引导聚合)、基于链接的集群集成 (LCE)、贝叶斯网络、最近质心分类器、贝叶斯技术、加权粗糙集、k-NN

以及许多处理不平衡的采样方法。