关于“使用卷积神经网络和马尔可夫随机场进行图像人群计数”的说明

人工智能 深度学习 卷积神经网络
2021-10-29 05:23:41

我目前正在阅读 康汉、王根万、姚海燕和李侯的研究论文Image Crowd Counting Using Convolutional Neural Network and Markov Random Field 。
我没有正确理解以下上下文:

我们使用在 ImageNet 数据集上训练的用于图像分类任务的残差网络来提取深度特征来表示人群的密度。这个预训练的 CNN 网络为每三个卷积层创建一个残差项,使网络的层数达到 152。我们将图像块的大小调整为 224 × 224 的大小作为模型的输入,并提取 fc1000 的输出层获得 1000 维特征。然后使用这些特征来训练 5 层全连接神经网络。网络的输入是 1000 维的,网络中的神经元数量由 100-100-50-50-1 给出。网络的输出是本地人群计数

任何人都可以详细解释上述部分吗?

1个回答

我将尝试逐步完成:

我们使用在 ImageNet 数据集上训练的用于图像分类任务的残差网络来提取深度特征来表示人群的密度。

如果你看图 2,你可以看到他们使用了神经网络架构 ResNet。这是一个深度网络,是论文。它具有良好的性能并可以进行图像分类。

这个预训练的 CNN 网络为每三个卷积层创建一个残差项,使网络的层数达到 152

如果您在第 k 层,则表示该层有输入,即第 k-3 层的输出。请参阅论文,图 5 很好地解释了它,无需太多解释。此外,Resnet 有 3 种不同层数的不同架构,它们采用更深的一种,即 152 层的 Resnet。

我们将图像块的大小调整为 224 × 224 的大小作为模型的输入,提取 fc1000 层的输出,得到 1000 维的特征

Resnet 的输入是大小为 224x224 的图像,因此需要调整它们的大小以适应 Resnet 的输入要求。Resnet 的输出是 1000,因为 Imagenet 是 1000 个类的数据集。

然后使用这些特征来训练 5 层全连接神经网络。网络的输入是 1000 维的,网络中的神经元数量由 100-100-50-50-1 给出。

然后他们将 Resnet 的输出提供给他们自己的网络,该网络有 5 层深。参见他们论文的图 2。显然,输入层有 1000 个输入,因为有 Resnet 的输出。该网络有 100、100、50 层,最后是 1 个神经元。见图 2。

网络的输出是本地人群计数

我想我不需要解释,他们只想要人群中的人数,所以他们只需要一个输出。这显然不是分类问题,而是回归问题。

不明白的地方你真的不指出来吗,我就不详细解释了。如果某些部分对您来说仍然模糊,请随时提出更准确的问题!