分类器所需的最小训练样本量

机器算法验证 机器学习 分类 判别分析
2022-04-02 17:16:46

确定分类器所需的最小训练样本数的最佳方法是什么?

我只是将一个分类器(四类问题)、判别函数分析(DFA)与来自不同数据集的不同训练样本量进行比较。但是,我可以考虑比较多个分类器,因为我也在使用内矩阵和单独的矩阵方法比较 DFA。该数据是用于对动物行为进行分类的加速度计数据。不同的数据集都来自相同的原始数据,但已经应用了处理,例如平滑、去除了异常值。

我已经通过每个分类器从每个数据集中随机选择增加的子样本大小(10 - 2550)进行 100 次交互。分别为每个数据集平均每个子样本大小的分类准确度或错误率,为我提供了四个类别中每个类别的分类器的学习曲线。

使用学习曲线趋于平稳的区域,我想建议未来研究所需的每个班级可能的最小训练样本量。与其直观地查看学习曲线并提出建议,不如进行适当的统计测试。我是在谈论数据驱动的特征选择吗?我不需要推断,因为看起来我有足够的训练样本。我认为 ROC 曲线不适用,因为我只有每个子样本大小的每次运行的分类率,而不是我认为 ROC 曲线需要的预测成员概率。

我在这里查看了几篇文章,这些文章对推进我的思考很有用。这篇文章(需要多大的训练集?)与我的要求有关,但我不认为它建议进行适当的测试。

这篇论文(http://jmlr.org/papers/volume7/demsar06a/demsar06a.pdf)建议使用弗里德曼测试和相应的事后测试来比较多个数据集上的更多分类器。但是,它似乎没有考虑到来自同一训练数据集的子样本量不断增加,而是使用了完全独立的数据集。

0个回答
没有发现任何回复~