数据挖掘 - 检测 SVM/SVC 的过拟合 - 吾爱随笔录

我正在使用 RBF 内核对 SVC 使用 3 折交叉验证和 C 和 gamma 参数的网格搜索，我的分类得分为 84%。

针对实时数据进行测试时，准确率为 70%（使用了 1500 个样本）。然而，当针对未见过的保留集进行测试时，准确度为 86%（8800 个样本，原始数据集的 20%）。

训练和保留数据集的 3 个类别分布均匀。

造成这种巨大差异的原因可能是什么？从带有支持集的模型的性能来看，它似乎并没有过度拟合？

编辑：

你是如何拆分数据集的？ 数据最初是按顺序排列的。我编写了一个脚本，利用 CSPRNG 在训练集和支持集之间随机分割每个样本。然后在最后自动生成报告以显示每个集合中每个类的分布。分布非常接近相等。

你是怎么做网格搜索的？ 通过SKlearn SVC网格搜索方法（GridSearchCV）。

网格搜索期间使用的数据点与未见过的保留集之间是否有任何重叠？ 没有重叠，它们都来自初始集中的唯一时间戳。

实时数据是否来自与另一个相同的分布？ 是的，实时数据来自同一来源，分布大致相同。

你怎么知道？ 我有一个脚本来计算数据集中每个类的出现次数。