我正在研究两个类(0/1)的机器学习分类问题。我想建立一个预测模型。问题是我有一个shape=(89, 21)
可能导致过度拟合的小数据集。问题(20 个自变量)。我注意到结果受训练数据和测试数据大小的影响很大(即拆分是如何完成的)。LR 最好的结果是0.90,最差的结果是0.74。
算法
我使用此指令拆分数据:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.37, random_state=2)
然后我对训练集进行了简化,因为它不平衡 {0}=62 {1}=27
下表包含我得到的测试集的最佳结果(测试错误)。
LogisticRegression DecisionTree adaBoost RandomForest GradientBoosting Accuracy0.9090910.9393940.8484850.8787880.848485ROC 0.9285710.9345240.8452380.9285710.827381
下表包含训练错误
LogisticRegression DecisionTree adaBoost RandomForest GradientBoosting Accuracy0.9634151.001.001.001.00ROC 0.9634151.001.001.001.00
我需要一些关于如何管理过度拟合问题的指南(想法、教程……)。谢谢