我有一个数据集,其中 yes=77 和 no=16000,这是一个高度不平衡的数据集。我的计划是使用随机森林确定影响响应变量的最重要变量,然后使用所选变量开发逻辑回归模型。
我打算使用随机森林包和重采样技术。我知道它会减少 II 型错误但会增加 I 型错误。随机森林是分析这些数据的合理技术吗?是否有任何其他机器学习技术更适合我的情况。
我有一个数据集,其中 yes=77 和 no=16000,这是一个高度不平衡的数据集。我的计划是使用随机森林确定影响响应变量的最重要变量,然后使用所选变量开发逻辑回归模型。
我打算使用随机森林包和重采样技术。我知道它会减少 II 型错误但会增加 I 型错误。随机森林是分析这些数据的合理技术吗?是否有任何其他机器学习技术更适合我的情况。
在使用随机森林模型时,通常有两种方法来处理不平衡数据。一种方法是成本敏感的学习,另一种是抽样。对于极度不平衡的数据,随机森林通常倾向于偏向多数类。
成本敏感的方法是为不同的类别分配不同的权重。因此,如果少数类被分配了更高的权重,因此错误分类成本更高,那么这有助于减少其对多数类的偏见。您可以使用class weightscikit-learn 中的随机森林参数为每个类分配权重。
其次,有不同的采样方法,例如对少数类进行过采样或对多数类进行欠采样等......虽然简单的采样方法可以提高整体模型性能,但最好选择更专业的采样方法,如 SMOTE 等来获得更好的模型。
大多数机器学习模型都存在数据不平衡问题,尽管有一些理由相信生成模型在数据集不平衡的情况下通常会表现得更好。