具有小(但同样采样)数据集的高精度指标是否意味着一个好的模型?

数据挖掘 神经网络 美国有线电视新闻网 图像分类 交叉验证
2022-03-04 22:05:28

我一直在用每班 200 张图像来训练我的 CNN,以解决分类问题。有一个二分类问题。通过大量的测试数据(每类 25 个),我得到了很好的准确度、精确度和召回值。这是否意味着我的模型实际上很好?

2个回答

您可以进行交叉验证,以确保您的测试集不仅很容易分类。

如果可能的话,您可以尝试通过旋转、移位、翻转来增加训练集的大小……如果您使用的是 Keras,您可以阅读此博客

您可以阅读一些有关小型数据集问题的论文,例如https://arxiv.org/pdf/1611.03199.pdf

最近的工作表明,标准机器学习技术,如随机森林和简单的深度网络,仅能从几百种化合物中学习有意义的化学信息

虽然这个例子不是关于图像的(我建议你用图像和 cnn 来研究医学问题),但你可以发现,这样的挑战广泛分布在不同的领域,很难获得足够数量的标记数据(医学问题例如)。这个想法是可以创建适当的模型并判断其性能的质量。如果你的算法进一步使用的目标字段具有相同的数据表示,那么你的模型很可能已经足够好。