使用 Gmean 的统计测试来比较多个数据集上的多个算法

数据挖掘 机器学习 统计数据 多类分类
2022-03-12 18:16:48

我是这个领域的新手。在使用统计测试比较算法时,我遇到了一些问题。我有一些分类算法的 Gmean 的以下结果。Abalone、Balance-scale、Car、Chess 是这里的数据集,而 ROS、RUS、RFS、NoS 是算法。

如果我想使用一些统计测试(例如 t 检验、Friedmen 检验、Wilcoxon 检验等)比较哪个数据集比其他数据集更好,那么我可以使用下表比较算法吗?

                  ROS       RUS     RFS     NoS
Abalone           0.003     0.0036  0.0039  0
Balance-scale     0.8858    0.8065  0.8966  0.9417
Car               0.9191    0.7216  0.9056  0.9094
Chess             0.4912    0.1973  0.5084  0.1438

如果有人对此有任何想法,请帮助我。或者,您可以分享我可以找到解决方案的任何参考资料。我研究了这些统计检验、零假设、p 值等,但不明白是否可以使用 Gmean 比较这些算法。

***G-mean = 几何平均值,用于评估多类分类器的性能

提前致谢。

1个回答

机器学习算法的性能通常不使用零假设显着性检验 (NHST) 进行评估。

机器学习性能通常通过对保留数据(例如,验证或测试)的性能进行评估,而不管评估指标如何。