我已经阅读了YOLO9000 论文,因为他们提到网络预测边界框的 5 个坐标,并从中找到准确的中心坐标以及宽度和高度。我对这些方程式感到困惑。 bxbybwbhPr(object)×IOU(b,object)=σ(tx)+cx=σ(ty)+cy=pwetw=pheth=σ(to)bx=σ(tx)+cxby=σ(ty)+cybw=pwetwbh=phethPr(object)×IOU(b,object)=σ(to)
在这些方程中,代表什么?为什么他们对宽度和高度使用指数?σσ
它是逻辑 sigmoid 函数: 它的界限在 0 和 1 之间,在他们的情况下这是一个理想的属性(图片来自Wikipedia):σ(x)=11+e−xσ(x)=11+e−x
关于指数,请参阅此答案。
除了使用符号的符号之外,一个图像的标题将此函数命名为“sigmoid”函数。从纸上看,σσ
图 3:具有维度先验和位置预测的边界框。我们将框的宽度和高度预测为与簇质心的偏移量。我们使用 sigmoid 函数预测相对于过滤器应用位置的框的中心坐标。
“sigmoid”函数是某个函数的众多名称之一。这个名字在神经网络文献中特别常见;有关详细说明,请参阅函数有标准名称吗?ex/(1+ex)ex/(1+ex)