数据挖掘 - 在选择最佳参数时考虑准确性或标准偏差的困惑 - 吾爱随笔录

数据挖掘 Python 分类 scikit-学习网格搜索

2022-02-27 02:52:32

我有一个带有各种参数的模型要测试。

我拥有的数据集的大小并不是很大（约 500 个文档）。

我的问题是，当我使用 10 CV 测试参数时，其中一些会产生高精度值，但褶皱的标准偏差值（褶皱的准确度值）很高。

前任。

Model setup 1: acc: 0.81, STD: 0.23
Model setup 2: acc: 0.76, STD: 0.05

设置 1 的准确度较高但标准差较高，设置 2 的准确度较低但结果更稳定。

因此，我怎样才能选择最好的模型？

1个回答

注意跨 CV 折叠的 std dev 是完全正确的，尤其是对于小型数据集。正如您所观察到的，不同的模型显示了不同的性能值以及标准开发，因此您必须在性能和稳定性之间进行权衡：

此选择取决于上下文，即模型的用途。

其它你可能感兴趣的问题