glm(带Firth校正)、随机森林、惩罚SVM之间的模型比较

机器算法验证 r 机器学习 分类 造型
2022-04-12 01:16:21

我目前正在开发三种模型来对基因位点的特征进行分类。

我使用 glm(带有 Firth 校正)、随机森林和 SVM 来构建模型,我使用 glm 的前向和后向选择(forwardbackward函数 from logistf),使用 oob 错误选择(使用varSelRFvarSelRF中的函数)和函数svm.fsfrompenalizedSVM为模型选择变量的包。

我使用交叉验证来验证训练数据的模型构建。我在测试数据上生成了性能的 ROC 曲线,因为我想使用 ROC 作为拟合优度度量。

现在我的问题是:就最佳(即最佳预测精度)模型而言,比较每条ROC曲线的AUC并选择AUC最高的模型作为最佳模型是否足够?

感谢您的回答!

1个回答

关于哪些指标最适合用于访问分类器性能,这是一个非常大且开放的问题。这篇论文在比较它们方面做得很好:

Caruana、Rich 和 Alexandru Niculescu-Mizil。“度量空间中的数据挖掘:监督学习性能标准的实证分析。” 第十届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集。ACM,2004 年。

他们实际上得出的结论是,AUC 是最好使用的指标之一——然而,它远非万无一失,因为有些方法在一个指标上比另一个指标做得更好。例如,我怀疑 SVM 和 RF 在 AUC 上会做得很好,但 GLM 在使用基于概率的度量(例如交叉熵)时可能会做得更好。

tl; dr:没有人会批评您使用 AUC,但要知道,由于没有“完美”的指标,因此该指标仍会偏向于某些方法而不是其他方法。