我正在使用决策树研究罕见事件(不平衡目标变量)分类问题。我的数据集包括 95% 的非事件类和 5% 的少数(事件)类。
我使用决策树而不是逻辑回归,因为与连续变量相比,我有许多分类变量。使用决策树 C5.0 训练数据时,我获得了良好的性能。但是,我对新数据的结果很差。我使用混淆矩阵来衡量性能。训练模型过拟合。
我做了修剪以减少决策树引起的过度拟合。我使用以下代码来构建模型
Classifi_C5.0 <- C5.0(TARGET ~., , data = training_data_SMOTED, trails = 500,
control = C5.0Control(minCases = mincases_count,
noGlobalPruning = FALSE))
我使用以下代码平衡了少数类和多数类:
training_data_SMOTED <- SMOTE(TARGET ~ ., training_data,
perc.over = 100, k = 5, perc.under = 200)
任何形式的建议都会有所帮助。