作为机器学习的初学者,我想从事一个小型项目,其中数据集只有 80 行和 5 列。我正在使用的数据集与医疗状况有关,有 4 列作为生物标志物,第 5 列表示该行(患者)是否有这种状况。到目前为止,我已经拟合了以下 5 个模型(具有准确度和 MCC 分数):
- KNN(准确度:43.5%,MCC:-0.164)
- 逻辑回归(准确度:65.2%,MCC:0.312)
- SVM(准确度:60.9%,MCC:0.214
- 随机森林(准确率:86.95%,MCC:0.769)
- 决策树(准确度:65.2%,MCC:0.312)
我使用了 5 折交叉验证来防止过度拟合,但我的大多数模型都表现不佳。我也在考虑集成和引导,但由于这些缺乏结果,我不确定它们会有多有效。您是否有任何提示:
小数据集的更好算法
到目前为止,我可以对算法进行改进
另一种方法(例如正则化)