在选择最佳参数时考虑准确性或标准偏差的困惑

数据挖掘 Python 分类 scikit-学习 网格搜索
2022-02-27 02:52:32

我有一个带有各种参数的模型要测试。

我拥有的数据集的大小并不是很大(约 500 个文档)。

我的问题是,当我使用 10 CV 测试参数时,其中一些会产生高精度值,但褶皱的标准偏差值(褶皱的准确度值)很高。

前任。

Model setup 1: acc: 0.81, STD: 0.23
Model setup 2: acc: 0.76, STD: 0.05

设置 1 的准确度较高但标准差较高,设置 2 的准确度较低但结果更稳定。

因此,我怎样才能选择最好的模型?

1个回答

注意跨 CV 折叠的 std dev 是完全正确的,尤其是对于小型数据集。正如您所观察到的,不同的模型显示了不同的性能值以及标准开发,因此您必须在性能和稳定性之间进行权衡:

  • 安全的选择是选择精度较低且方差较小的模型。它可能并不总是表现最佳,但至少它不会表现得太差。
  • 有风险的选择是高精度、高方差模型:平均而言,它会表现最好,但实际上表现不佳的风险更高。

此选择取决于上下文,即模型的用途。