由于 softmax 函数是逻辑函数的泛化,因此它是连续且非线性的。
所以softmax层的输出为:softmax(weight_matrix * input_activation)
weight_matrix * input_activation 是特征的纯线性组合。
问题是:如果 softmax 激活的应用仍然在线性分类器中产生,或者模型是否能够表示非线性函数?
由于 softmax 函数是逻辑函数的泛化,因此它是连续且非线性的。
所以softmax层的输出为:softmax(weight_matrix * input_activation)
weight_matrix * input_activation 是特征的纯线性组合。
问题是:如果 softmax 激活的应用仍然在线性分类器中产生,或者模型是否能够表示非线性函数?
没有隐藏层和 softmax 输出层的神经网络在经过训练以最小化分类交叉熵(等效于最大化多项式模型的对数似然)时,正是逻辑回归(可能具有 2 个以上的类)。
你的解释是对的:输入的线性组合学习线性函数,softmax 函数产生一个类的概率向量。