数据挖掘 - 二进制分类算法 - 吾爱随笔录

数据挖掘机器学习深度学习分类奥克鹏

2022-02-16 07:24:15

我有一个包含大量特征（大约 3000 个）和一个二进制目标变量的数据集。我有太多特征的原因是因为在我的数据集中对许多分类变量进行了热编码。

我认为逻辑回归可能只适用于少数特征。

那么，鉴于我有很多特征，我应该使用哪种算法来获得更好的分类分数？

我的目标是增加这个分类任务的 ROC-AUC 指标。

使用 SVM 或神经网络更好吗？

1个回答

我想到的第一件事是进行不同的编码。有一些方法可以处理高基数分类数据，例如：标签编码或著名的目标编码。首先，我建议更改编码类型。

但是，由于您关于哪个预测器用于小型和空间数据的问题。我将继续使用逻辑回归、决策树或 SVM。当数据很小时，所有算法的工作原理都非常相似。

诸如随机森林之类的东西可能会表现良好，因为它们会引导通常是一种通过替换对数据进行采样的方法。

其它你可能感兴趣的问题