为什么 softmax 回归经常在没有偏差项的情况下编写?

机器算法验证 符号 截距 软最大
2022-04-11 00:16:30

我熟悉由以下人员编写的 softmax 回归:

P(Y=yX=x)=e[Wx+b]yie[Wx+b]i
为了改变阶级Y存在y,给定观察X作为存在x. 并使用下标表示选择矩阵的第 i 列和向量的第 i 个元素。这是此答案中使用的公式

但我查看其他来源,例如wikipediaufldl.stanford.edu

它使用以下公式:

P(Y=yX=x)=e[Wx]yie[Wx]i

在我看来,那个偏见术语b显然需要处理类不平衡的情况。

当我们拆分条款时:

P(Y=yX=x)=e[Wx+b]yie[Wx+b]i=e[Wx]iebyie[Wx]iebi
它似乎也与贝叶斯定理中的先验概率项相对应:
P(Y=yX=x)=P(X=xY=y)P(Y=y)iP(X=xY=i)P(Y=i)

对我来说似乎是必需的,但也许我错过了一些东西。为什么它在这么多来源中被遗漏?

1个回答

如果您使用矩阵表示法,那么

β0+β1X1++βkXk

可以根据已经包含一列用于截距的设计矩阵来定义

X=[1x1,1x1,k1x2,1x2,k1xn,1xn,k]

所以写β0+是多余的。