数据挖掘 - 具有小（但同样采样）数据集的高精度指标是否意味着一个好的模型？ - 吾爱随笔录

数据挖掘神经网络美国有线电视新闻网图像分类交叉验证

2022-03-04 22:05:28

我一直在用每班 200 张图像来训练我的 CNN，以解决分类问题。有一个二分类问题。通过大量的测试数据（每类 25 个），我得到了很好的准确度、精确度和召回值。这是否意味着我的模型实际上很好？

2个回答

您可以进行交叉验证，以确保您的测试集不仅很容易分类。

如果可能的话，您可以尝试通过旋转、移位、翻转来增加训练集的大小……如果您使用的是 Keras，您可以阅读此博客。

您可以阅读一些有关小型数据集问题的论文，例如https://arxiv.org/pdf/1611.03199.pdf：

最近的工作表明，标准机器学习技术，如随机森林和简单的深度网络，仅能从几百种化合物中学习有意义的化学信息

虽然这个例子不是关于图像的（我建议你用图像和 cnn 来研究医学问题），但你可以发现，这样的挑战广泛分布在不同的领域，很难获得足够数量的标记数据（医学问题例如）。这个想法是可以创建适当的模型并判断其性能的质量。如果你的算法进一步使用的目标字段具有相同的数据表示，那么你的模型很可能已经足够好。

其它你可能感兴趣的问题