如何评价有竞争力的好模型的“好坏”?

数据挖掘 模型选择
2022-02-24 03:00:13

如何评价有竞争力的好模型的“好坏”?

假设我可以得到好的模型(> 90% 的预测率),例如:

  • 线性SVC
  • 基于 F 测试的 sklearn.feature_selection.f_regression
  • 基于互信息的 sklearn.feature_selection.mutual_info_regression

但是由于这些以不同的方式处理例如特征的独立性/依赖性,特别是例如 LinearSVC 假设“相对独立”的特征,其中相互信息特别衡量变量之间的依赖性,那么

如何将这些模型相互比较?

测试?先验的数据知识?还有什么?

2个回答

典型的方法是比较模型的(交叉)验证性能,至少在准确性是选择标准的情况下。

其他标准可能是

  • 简单/易于解释
  • 在生产环境中实施和/或更新模型的难易程度

这是一个非常笼统的问题,答案是这取决于你在做什么,你的应用程序是什么。

您首先构建模型的原因是什么?正如 Fadi Bakoura 所说,您想通过测试集上的泛化错误来评估性能,但是您选择的错误度量取决于您在做什么、数据集的平衡程度、您是否更关心误报或误报负面影响,或其他一些问题。