机器学习的统计测试

数据挖掘 机器学习 统计数据 评估
2021-09-16 06:49:44

我想证明在给定少量数据进行训练时,我提出的机器学习算法(prop_ml)优于其他基线算法(ml_1、ml_2、ml_3)我所做的是将数据集拆分为训练集和测试集。然后,我从训练集中随机选择了小k 个样本(10、20、30、... 100),并用它们来训练分类器并使用测试集进行测试。我已经复制了 5 次以确保得到一些可靠的结果。

现在,我想评估结果。关于统计测试的任何建议,我可以用来证明提议的 ml 是否更好?谢谢。

3个回答

我在大学的时候做过类似的事情。教授让我实现k-最近邻的变体并将其与原始的进行比较。

我已经使用这两种算法对几个数据集应用了 10 折交叉验证,然后我在准确度均值上应用了 Holm post hoc 的弗里德曼测试。您也可以使用简单的配对 t 检验或其他方法,这取决于您的需要

我的教授还建议我使用这个图形工具。希望这可以帮助

剧透

事实证明,我的 k-NN 变体并没有更好!

用于比较模型的检验包括 ANOVA(基于卡方的检验,F 检验)、基于对数似然的检验(偏差、Wilk's lambda)或基于 AIC/BIC 的检验(惩罚偏差)。

不确定我们可以在这里使用参数方法,因为我们没有关于分布参数的信息。

一般来说,我同意@ggagliano。分享我自己的经验,我对配对样本使用了非参数符号检验。

例如,对于带有参数调整的 C4.5 分类器,我们有以下结果。

在此处输入图像描述

作为该方法的统计数据,我们使用第一个分类器优于第二个分类器的指标总和。如果第一个假设是有效的,那么我们有一个参数为 (n,1/2) 的二项式分布。这意味着两个分类器是相等的。备择假设声称修改后的分类器的质量更好。

此示例的 p 值为 0.019。在 0.05 的显着性水平上,我们可以拒绝第一个假设。

您也可以尝试在工作中使用相同的方法。