特征提取:冻结卷积基础与提取特征的训练

机器算法验证 机器学习 深度学习 卷积神经网络 喀拉斯
2022-03-30 21:55:19

[注意:为了澄清,这个问题是关于理论的,代码只是为了更好地解释这个问题。这绝不是一个编程问题。]

在“François Chollet 的 Python 深度学习”第 ​​5.3 节中,解释了使用预训练网络对小型图像数据集进行深度学习的过程。介绍了两种不同的特征提取方法(仅使用 VGG16 的卷积基):

1. 无数据增强的快速特征提取:在这种方法中,首先通过调用模型的predict方法提取数据集中每个图像的特征conv_base这是供参考的代码:

from keras.applications import VGG16
conv_base = VGG16(weights='imagenet',
                  include_top=False,
                  input_shape=(150, 150, 3))

import os
import numpy as np

from keras.preprocessing.image import ImageDataGenerator
base_dir = '/Users/fchollet/Downloads/cats_and_dogs_small'
train_dir = os.path.join(base_dir, 'train')
validation_dir = os.path.join(base_dir, 'validation')
test_dir = os.path.join(base_dir, 'test')

datagen = ImageDataGenerator(rescale=1./255)
batch_size = 20

def extract_features(directory, sample_count):
    features = np.zeros(shape=(sample_count, 4, 4, 512))
    labels = np.zeros(shape=(sample_count))
    generator = datagen.flow_from_directory(
        directory,
        target_size=(150, 150),
        batch_size=batch_size,
        class_mode='binary')
    i = 0
    for inputs_batch, labels_batch in generator:
        features_batch = conv_base.predict(inputs_batch)
        features[i * batch_size : (i + 1) * batch_size] = features_batch
        labels[i * batch_size : (i + 1) * batch_size] = labels_batch
        i += 1
        if i * batch_size >= sample_count:
            break

    return features, labels

train_features, train_labels = extract_features(train_dir, 2000)
validation_features, validation_labels = extract_features(validation_dir, 1000)
test_features, test_labels = extract_features(test_dir, 1000)

然后这些特征将被馈送到一个密集连接的分类器进行分类,该分类器是从头开始训练的:

train_features = np.reshape(train_features, (2000, 4 * 4 * 512))
validation_features = np.reshape(validation_features, (1000, 4 * 4 * 512))
test_features = np.reshape(test_features, (1000, 4 * 4 * 512))

from keras import models
from keras import layers
from keras import optimizers

model = models.Sequential()
model.add(layers.Dense(256, activation='relu', input_dim=4 * 4 * 512))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(1, activation='sigmoid'))

model.compile(optimizer=optimizers.RMSprop(lr=2e-5),
              loss='binary_crossentropy',
              metrics=['acc'])

history = model.fit(train_features, train_labels,
                    epochs=30,
                    batch_size=20,
                    validation_data=(validation_features, validation_labels))

2. 使用数据增强的特征提取:在这种方法中(速度要慢得多),通过在其顶部添加一个密集连接的分类器来扩展卷积基础,并且端到端进行训练。然而,卷积层被冻结以防止它们的权重被更新:

from keras import models
from keras import layers

model = models.Sequential()
model.add(conv_base)
model.add(layers.Flatten())
model.add(layers.Dense(256, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

conv_base.trainable = False

from keras.preprocessing.image import ImageDataGenerator
from keras import optimizers

train_datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest')

test_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(150, 150),
    batch_size=20,
    class_mode='binary')

validation_generator = test_datagen.flow_from_directory(
    validation_dir,
    target_size=(150, 150),
    batch_size=20,
    class_mode='binary')

model.compile(loss='binary_crossentropy',
          optimizer=optimizers.RMSprop(lr=2e-5),
          metrics=['acc'])

history = model.fit_generator(
    train_generator,
    steps_per_epoch=100,
    epochs=30,
    validation_data=validation_generator,
    validation_steps=50)

我的问题:

1)我不明白第一种方法和第二种方法之间的区别(除了在第二种方法中使用数据增强和在第一种方法中使用额外的 dropout 层)。第二种方法的卷积基数没有更新,所以只在前向传播中使用。因此,它与第一种方法中的卷积基基本相同,分类器也相同,所以我认为它们应该给我们相同的准确性(和速度)。我错过了什么?

2)让我更加焦虑的一件事是我在我的机器上尝试了这两种方法。第二种方法要慢得多,但它们在验证数据上的准确率都达到了 90%;而在书中,建议第一种和第二种方法在验证数据上分别达到 90% 和 96% 的准确率。(如果方法不同)为什么会发生这种情况?

3)书中建议在第一种方法中我们不能使用数据增强。我不清楚为什么会这样。特别是,是什么阻止我们ImageDataGenerator在第一种方法中使用类似于第二种方法中用于生成训练数据的方法?(此外,虽然声称第二种方法使用数据增强,但事实是,考虑 和 的值,batch_size两种steps_per_epoch方法中用于训练的图像数量相同,即 2000)。

2个回答

我认为你理解得非常正确。为了解决您的问题:

(1.)因此,它与第一种方法中的卷积基基本相同,分类器也是相同的,所以我认为它们应该给我们相同的准确度(和速度)。我错过了什么?

这些方法通常是相同的。你没有错过任何东西。准确性的差异归功于数据增强(见下文)。

第二种方法速度较慢,因为您需要 1) 动态生成增强图像,2) 为每个增强图像计算卷积网络特征。第一种方法跳过了这一点,只对一组固定的图像使用预先计算的卷积网络特征。

(2.)书中建议第一种和第二种方法在验证数据上分别达到 90% 和 96% 的准确率。(如果方法不同)为什么会发生这种情况?

第二种方法应该更好,因为它使用数据增强。数据增强是非常强大的东西,因此将准确率提高 6% 是可以预期的。

(3.) 书中建议在第一种方法中我们不能使用数据增强。我不清楚为什么会这样。

从理论上讲,您可以将数据扩充用于第一种方法。不是即时生成增强样本,而是首先生成大量样本(例如,每个样本的 1000 个变体)并计算它们的卷积网络特征,您将使用这些特征来训练分类器。这种方法的缺点是 1)更高的内存需求,2)“有限”数量的增强样本(每 1000 个 epoch 之后,您只需再次开始使用相同的样本)。另一方面,它比第二种方法更快。

(3.)考虑batch_size和steps_per_epoch的值,两种方法训练的图像数量相同,即2000

在每个时期,这两种方法都使用 2000 张图像。但是,第一种方法在每个 epoch 中使用相同的 2000 张图像第二种方法在每个时期都使用这些图像的不同增强版本。

对于第 (2) 点,Keras 中似乎存在一个问题,其中 conv_base.trainable = False 在版本 2.1.0 之前不起作用(请参阅https://github.com/fchollet/deep-learning-with-python -笔记本/问题/21)。

即代码无意中在编写本书时使用的 Keras 版本中重新训练了至少一部分基础网络。

实际上,如果您删除该行:

conv_base.trainable = False

从代码中,即使使用 Keras 2.2.0,您也将获得 96% 的准确率