我正在研究 BRFSS 数据集,目标是预测糖尿病。该数据集有 500,000 行和 405 列。这是一个 0/1 分类问题,0 与 1 的比例为 90:10。我尝试使用决策树、逻辑回归、决策树和逻辑回归的集合,在所有这些方法中我的错误分类率几乎是 14%。
- 我应该怎么做才能提高准确性?
我看到之前的一篇文章说二次抽样或分配不同的权重有帮助。但我不确定这个比例。
- 开始时的最佳比例是多少?
- 我正在使用 SAS。有没有办法在 SAS 中进行二次抽样?
- 我也有兴趣尝试加权方法。有没有办法在 SAS 中实现这一点?
编辑(2011 年 4 月 28 日)
我尝试了二次抽样,我的错误分类率从 14% 上升到 23%。对于 0 类和 1 类,我使用的比率是 50:50。数据中的原始比率是 90:10,并且按原样使用数据会产生 14% 的误差。所以我相信二次抽样不适用于我的数据。您会建议任何其他提高准确性的方法吗?