如果我的所有特征都是分类的,那么哪个 ML 分类器适合我?

数据挖掘 分类 分类编码
2022-02-19 11:54:47

我的数据集包含四个特征。所有的特征都是分类的。第 1 和第 2 特征的值有 150 个类别。第 3 和第 4 特征的值有 8 个类别。我用数值替换了类别并应用了随机森林。但是,性能仍然达不到标准。

我可以尝试哪些其他机器学习分类算法?

1个回答

业绩不达标是什么意思?

要优化性能,您首先需要了解它。

一个典型的工作流程是这样的:

1. 定义基线性能

例如,使用常数(平均值、众数)预测值或从分布中随机选择并测量其准确性

2.将您的第一个草稿模型(在您的情况下是您的 RandomForest)与该基线进行比较

如果您的第一稿模型不比基线好,尤其是随机基线,那么您的代码、数据等中存在一些错误。请先尝试查找并消除这些错误。

如果它更好但不是很多,您可以优化模型(请参阅下一步)。如果它好很多,那么您要么 a) 完成,要么 b) 对绝对性能不满意,在这种情况下,您必须进行优化。

3.优化你的模型参数

现在你开始网格搜索你的模型参数,以获得它的最后一点性能,以确保问题出在模型而不是参数上。

4.选美比赛

如果您的性能现在仍然低于标准,您可以尝试其他算法,但不要指望这一步会产生奇迹。如果您已经尝试过 RandomForest,可以选择:

  • XGBoost 等增强模型
  • 朴素高斯模型
  • ...

将它们拟合到相同的数据上,进行参数优化并比较结果。

5.回到数据

如果原始性能与可接受的相差太远,很可能只是选择另一个模型并没有帮助。然后你必须回到数据,收集更多,特征工程师等。