数据挖掘 - 我的分类器还需要多少数据？ - 吾爱随笔录

我有一个大约 10 万篇新闻文章的数据集，我正在尝试根据每篇文章的标题和线索构建一个分类器。数据集没有预先标记，因此我手动标记要训练的文章子集。到目前为止，我有 9 个类别，每个类别有大约 600 篇带标签的文章。我正在使用doc2vec创建文档向量和SVC分类器sklearn来进行预测。

我的交叉验证分数（有 10 次拆分和数据洗牌）徘徊在 0.89 左右。

当我为训练集和测试集绘制学习曲线时，我将其解释为具有高方差的分类器，并且我需要收集更多数据。但是有什么方法可以估算出需要多少数据才能获得例如 0.95 的交叉验证分数？

这是我的学习曲线和平均分数：

训练分数：1.0、0.99919679、0.9991984、0.99791667、0.99615385、0.99550155、0.99487179。

测试分数：0.40769912、0.72283119、0.78529511、0.83461723、0.85527486、0.86151579、0.86471912。

编辑：我对 SVC 模型的 C 和 gamma 参数进行了网格搜索，并将 gamma 调整为 0.015，这使得两条线更加收敛。添加情节和新分数。

新的训练分数：0.97758621、0.98703072、0.98177172、0.97540872、0.96717739、0.96479244、0.96241702。

新的测试分数：0.45800254、0.78917394、0.83526468、0.853326、0.86849859、0.87232875、0.87508134。