我正在研究一个大小合理(100k 观察)的二元分类问题。我提取了 60 个数值特征;训练集中的类是均衡的。有一些重要的线性模式,但之后这些模式看起来非常非随机,所以我需要可以处理这个问题的分类器模型。
我真的希望以牺牲计算量为代价来挤出尽可能好的(估计的)准确度,所以我正在考虑创建一个集成分类器。
到目前为止,我已经收到了很好的结果:
- 一个随机森林分类器(90% CV 准确率)
- 径向基 SVM 分类器(87% 的 CV 准确率,仍在忙于在更精细的网格上对其进行调整)。
我现在想知道是否有任何其他可能有趣的算法可以添加到组合中(例如,三个对于多数投票来说会很好)。我希望多样化的模型能帮助我摆脱一些潜在的偏见并稍微提高准确性。最好我会使用通过 R 的 caret 包可用的算法。我现在正在研究高斯过程。
我的机器学习背景不是很理论;我真的只对 SVM、决策树和随机森林有过亲密的经验,所以插入符号中的算法列表非常令人生畏,我很难找到可以比较它们的应用研究。我知道很难预测特定数据的相对性能,但我愿意仔细研究其中的一些!