数据挖掘 - 使用迁移学习的单类数据集进行图像分类 - 吾爱随笔录

使用迁移学习的单类数据集进行图像分类

数据挖掘机器学习分类迁移学习

2022-02-18 19:14:39

我只有大约 1000 张车辆图像。我需要训练一个模型来识别图像是车辆还是非车辆。我没有非车辆的数据集，因为它可以是车辆以外的任何东西。

我想最好的方法是应用迁移学习。我正在尝试在预训练的 VGG19 模型上训练数据。但是，我仍然不知道如何训练一个只有车辆图像而没有任何非车辆图像的模型。我无法对其进行分类。

我是 ML 新手总的来说，任何基于实际实现的解决方案都将受到高度赞赏。

4个回答

您可以使用 TensorFlow 对象检测API。

在 API 中，您不必有 2 个或更多标签。它只能与一个标签一起使用。通过将图像转换为 tfrecord，您可以训练和预测其他图像。预测将为您提供边界框和将物体识别为车辆的概率。

这里的挑战是在图像上标记对象位置。LabelImg是一个很好的工具。

希望能帮助到你！

如果为您的图像创建分类器是您的最终目标，那么您可以简单地获取一些非车辆的图像。

要么下载 Imagenet、CIFAR 等图像数据集，要么下载像狗、花等非车辆的样本图像。只要确保包含足够多的类别和大约 1000 张图像。

或者您可以直接从互联网获取数据，例如。使用网络爬虫

我建议从现有数据集中采样。

您可以尝试使用预训练模型并获取输出。您可能需要应用降维，例如 PCA，以获得更易于管理的尺寸输入。之后，您可以训练新奇检测模型来识别输出是否与您的训练集不同。

另一种方法是使用自动编码器。所以这个想法是，如果测试图像与训练集“相似”，那么网络在重建输入时将没有问题，因此重建损失会更低。但我认为问题可能是缺乏训练数据，因为我相信 1000 对您的网络来说很小，无法概括车辆的概念，但谁知道您是否不尝试。

猜想 ImageNet 中已经有vehicle标签，所以最简单的方法是根本不训练任何东西。您还可以轻松地从网络上删除两者vehicle和non-vehicle图像。检查这篇文章。1k 图像对于训练 DNN 来说有点太少了。特征空间是超维的，所以你需要更深层次的东西，这意味着你的净容量会增长。使用少量数据进行训练会导致过拟合。还尝试大量增加您的数据集。您可以轻松地将其放大两个数量级。

其它你可能感兴趣的问题

上一篇使用迁移学习时模型不学习下一篇如何从 URL 列表中提取关键字？