我是这个领域的新手。在使用统计测试比较算法时,我遇到了一些问题。我有一些分类算法的 Gmean 的以下结果。Abalone、Balance-scale、Car、Chess 是这里的数据集,而 ROS、RUS、RFS、NoS 是算法。
如果我想使用一些统计测试(例如 t 检验、Friedmen 检验、Wilcoxon 检验等)比较哪个数据集比其他数据集更好,那么我可以使用下表比较算法吗?
ROS RUS RFS NoS
Abalone 0.003 0.0036 0.0039 0
Balance-scale 0.8858 0.8065 0.8966 0.9417
Car 0.9191 0.7216 0.9056 0.9094
Chess 0.4912 0.1973 0.5084 0.1438
如果有人对此有任何想法,请帮助我。或者,您可以分享我可以找到解决方案的任何参考资料。我研究了这些统计检验、零假设、p 值等,但不明白是否可以使用 Gmean 比较这些算法。
***G-mean = 几何平均值,用于评估多类分类器的性能
提前致谢。