我有一个高度不平衡的测试数据集。正面集由 100 个案例组成,而负面集由 1500 个案例组成。在训练方面,我有一个更大的候选池:正训练集有 1200 个案例,负训练集有 12000 个案例。对于这种情况,我有几种选择:
1)对整个训练集使用加权SVM(P:1200,N:12000)
2)使用基于采样训练集(P:1200,N:1200)的SVM,从12000个案例中抽取1200个负例。
对于决定哪种方法更好,是否有任何理论指导?由于测试数据集高度不平衡,我是否也应该使用不平衡的训练集?
我有一个高度不平衡的测试数据集。正面集由 100 个案例组成,而负面集由 1500 个案例组成。在训练方面,我有一个更大的候选池:正训练集有 1200 个案例,负训练集有 12000 个案例。对于这种情况,我有几种选择:
1)对整个训练集使用加权SVM(P:1200,N:12000)
2)使用基于采样训练集(P:1200,N:1200)的SVM,从12000个案例中抽取1200个负例。
对于决定哪种方法更好,是否有任何理论指导?由于测试数据集高度不平衡,我是否也应该使用不平衡的训练集?
从reddit 最近的一篇文章来看,datapraxis 的回复会很有趣。
成对扩展逻辑回归、基于 ROC 的学习、Boosting 和 Bagging(引导聚合)、基于链接的集群集成 (LCE)、贝叶斯网络、最近质心分类器、贝叶斯技术、加权粗糙集、k-NN
以及许多处理不平衡的采样方法。