在阅读语义分割论文及其相应的实现时,我发现一些方法使用 softmax,而另一些则使用 sigmoid 进行像素级标记。
例如,对于u-net paper,输出是具有两个通道的特征图。
我已经看到一些在这两个通道输出上使用 softmax 的实现。我不确定我的以下理解是否正确?
出于说明目的,蒙面部分属于 1 类,另一部分属于 2 类。我只假设两类:蒙面或非蒙面。
我用xy
形状 (1, image_row,image_col,2) 来表示输出映射。然后,xy[1,0,0,0]
将表示 (0,0) 处的像素属于第 1 类xy[1,0,0,1]
的概率,而将表示像素 (0,0) 属于第 2 类的概率。换句话说,xy[1,row,col,0]+xy[1,row,col,1]=1
我的理解正确吗?