在 Ross Girshick 的 fast R-CNN 论文 ( https://arxiv.org/abs/1504.08083 ) 中,边界框参数是连续变量。这些值是使用回归方法预测的。与其他神经网络输出不同,这些值不代表输出类别的概率。相反,它们是表示边界框位置和大小的物理值。
我不清楚这种回归学习是如何发生的确切方法。深度学习的线性回归和图像分类在前面已经分别进行了很好的解释。但是线性回归算法在 CNN 设置中是如何工作的并没有解释得那么清楚。
你能解释一下基本概念以便于理解吗?