选择分类器

数据挖掘 交叉验证
2022-02-15 20:38:27

对于我读到的 5x2cv t 测试是

“Dietterich 提出的用于比较两个模型(分类器或回归器)性能的程序,以解决其他方法中的缺点,例如重采样配对 t 检验和 k 折交叉验证配对 t 检验”

.

我目前正在对不平衡的数据集进行一些实验,我使用 SCUT 对其进行了平衡并训练了一组不同的分类器。问题是一个多类,有三个不同的类可供选择。我正在应用多层感知器、决策树和随机森林,经过 10 倍交叉验证后的结果如下:

多层感知器:0.95 acc

决策树:0.93 acc

随机森林:0.935 acc

当我应用 5x2cv t 测试时,我得到以下结果:

MLP和DT:

t 统计量 4.75

p 值 0.005

因此,如果我假设对于测试,我将有一个 0.05 的 alpha 值来拒绝原假设,即两种算法在同一个数据库中都表现良好,那么从我得到的 p 值中我可以拒绝原假设. 这意味着两种模型的表现都不尽相同,因此最好使用 MLP 而不是 DT,因为它的准确性更高。

当我对 MLP 和 RF 执行相同操作时,我得到以下结果:

t 统计量:2.46

p 值:0.055

在这里,我想我可以得出结论,对当前数据集使用 MLP 或 RF 几乎相同,因为我未能拒绝原假设。我在这里遇到的问题是,即使精度较低,我是否应该选择射频?

与DT和RF比较有以下数值:

t 统计量:-2.49

p 值:0.054

所以我可以拒绝零假设,并说使用 DT 而不是 RF 之间存在差异。

我的结论正确吗?

谢谢

1个回答

但是,如果您有足够大的数据集,您实际上可以使用基于 MLP 的分类器,尝试一些基本的特征选择技术,例如 RFECV 或 feature_importanece_ 函数,您可以在训练后使用包含在每个模型中的函数。如果在一天结束时你仍然对使用哪个模型感到困惑,我建议将它们全部堆叠起来,你会有更好的东西。仅根据统计数据做出这些决定是困难的,因为统计数据将所有内容都放入一个抽象形式是一个由 1 个数字表示的整个数据集,因此它总是容易出现某些错误,因此我总是更喜欢将我的数据科学实验与我的统计结果结合起来,然后只总结我的结果。此外,在使用统计分析时,很多事情取决于你的数据集,即