机器算法验证 - 为什么 softmax 回归经常在没有偏差项的情况下编写？ - 吾爱随笔录

我熟悉由以下人员编写的 softmax 回归：

P (Y = y ∣ X = x) = \frac{e^{[W x + b]_{y}}}{\sum_{\forall i} e^{[W x + b]_{i}}}

$P(Y=y\mid X=x)=\frac{e^{[Wx+b]_{y}}}{\sum_{\forall i}e^{[Wx+b]_{i}}}$ 为了改变阶级

Y

$Y$ 存在

y

$y$ ，给定观察

X

$X$ 作为存在

x

$x$ . 并使用下标表示选择矩阵的第 i 列和向量的第 i 个元素。这是此答案中使用的公式

但我查看其他来源，例如wikipedia、 ufldl.stanford.edu

它使用以下公式：

P (Y = y ∣ X = x) = \frac{e^{[W x]_{y}}}{\sum_{\forall i} e^{[W x]_{i}}}

$P(Y=y\mid X=x)=\frac{e^{[Wx]_{y}}}{\sum_{\forall i}e^{[Wx]_{i}}}$

在我看来，那个偏见术语 $b$ 显然需要处理类不平衡的情况。

当我们拆分条款时：

P (Y = y ∣ X = x) = \frac{e^{[W x + b]_{y}}}{\sum_{\forall i} e^{[W x + b]_{i}}} = \frac{e^{[W x]_{i}} e^{b_{y}}}{\sum_{\forall i} e^{[W x]_{i}} e^{b_{i}}}

$P(Y=y\mid X=x)=\frac{e^{[Wx+b]_{y}}}{\sum_{\forall i}e^{[Wx+b]_{i}}}=\frac{e^{[Wx]_{i}}\,e^{b{}_{y}}}{\sum_{\forall i}e^{[Wx]_{i}}\,e^{b{}_{i}}}$ 它似乎也与贝叶斯定理中的先验概率项相对应：

P (Y = y ∣ X = x) = \frac{P (X = x ∣ Y = y) P (Y = y)}{\sum_{\forall i} P (X = x ∣ Y = i) P (Y = i)}

$P(Y=y\mid X=x)=\frac{P(X=x\mid Y=y)\,P(Y=y)}{\sum_{\forall i}P(X=x\mid Y=i)\,P(Y=i)}$

对我来说似乎是必需的，但也许我错过了一些东西。为什么它在这么多来源中被遗漏？