我的数据集包含四个特征。所有的特征都是分类的。第 1 和第 2 特征的值有 150 个类别。第 3 和第 4 特征的值有 8 个类别。我用数值替换了类别并应用了随机森林。但是,性能仍然达不到标准。
我可以尝试哪些其他机器学习分类算法?
我的数据集包含四个特征。所有的特征都是分类的。第 1 和第 2 特征的值有 150 个类别。第 3 和第 4 特征的值有 8 个类别。我用数值替换了类别并应用了随机森林。但是,性能仍然达不到标准。
我可以尝试哪些其他机器学习分类算法?
业绩不达标是什么意思?
要优化性能,您首先需要了解它。
一个典型的工作流程是这样的:
1. 定义基线性能
例如,使用常数(平均值、众数)预测值或从分布中随机选择并测量其准确性
2.将您的第一个草稿模型(在您的情况下是您的 RandomForest)与该基线进行比较
如果您的第一稿模型不比基线好,尤其是随机基线,那么您的代码、数据等中存在一些错误。请先尝试查找并消除这些错误。
如果它更好但不是很多,您可以优化模型(请参阅下一步)。如果它好很多,那么您要么 a) 完成,要么 b) 对绝对性能不满意,在这种情况下,您必须进行优化。
3.优化你的模型参数
现在你开始网格搜索你的模型参数,以获得它的最后一点性能,以确保问题出在模型而不是参数上。
4.选美比赛
如果您的性能现在仍然低于标准,您可以尝试其他算法,但不要指望这一步会产生奇迹。如果您已经尝试过 RandomForest,可以选择:
将它们拟合到相同的数据上,进行参数优化并比较结果。
5.回到数据
如果原始性能与可接受的相差太远,很可能只是选择另一个模型并没有帮助。然后你必须回到数据,收集更多,特征工程师等。