机器算法验证 - 高度不平衡数据集的训练方法 - 吾爱随笔录

我有一个高度不平衡的测试数据集。正面集由 100 个案例组成，而负面集由 1500 个案例组成。在训练方面，我有一个更大的候选池：正训练集有 1200 个案例，负训练集有 12000 个案例。对于这种情况，我有几种选择：

1）对整个训练集使用加权SVM（P：1200，N：12000）

2）使用基于采样训练集（P：1200，N：1200）的SVM，从12000个案例中抽取1200个负例。

对于决定哪种方法更好，是否有任何理论指导？由于测试数据集高度不平衡，我是否也应该使用不平衡的训练集？