在卷积神经网络中,卷积和池化操作有一个称为步幅的参数,它决定了内核需要对输入图像进行的跳跃量。您可以从此处获取有关步幅的更多信息
步幅是在输入矩阵上移动的像素数。当步幅为 1 时,我们一次将过滤器移动到 1 个像素。当步幅为 2 时,我们一次将过滤器移动到 2 个像素,依此类推。
但是,我不明白张量级图像的步幅信息是什么意思。考虑一下Eli Stevens 等人的教科书“使用 PyTorch进行深度学习”中的“真实世界数据表示”一章中的以下段落。
img = torch.from_numpy(img_arr) out = img.permute(2, 0, 1)我们之前已经看到过,但请注意,此操作不会复制张量数据。相反,
out使用相同的底层存储,img并且只在张量级别使用大小和步幅信息。这很方便,因为操作非常便宜;但就像提醒一样:更改像素img将导致out.
它提到了图像张量级别的步幅信息。它们是指与 CNN、池等相关的步幅,还是指任何其他步幅信息?