数据挖掘 - 我可以使用 softmax 和交叉熵损失将任何二进制分类算法转换为多类算法吗？ - 吾爱随笔录

用于多类分类的 Softmax + 交叉熵损失用于 ML 算法，例如 softmax 回归和（最后一层）神经网络。我想知道这种方法是否可以将任何二进制分类算法变成多类算法？例如，

如果我使用多项式函数进行二元分类，决策步骤是“如果多项式的输出大于 0，则预测为正，否则预测为负”，那么我可以使用 k 个这样的多项式 $\dagger$ 对于 k 类分类，每个多项式 $f_i(X)$ 有自己的一组参数要学习；然后，目标是最小化 one-hot 标签的样本分布和 $e^{f_i(X)}/\sum_{i=1}^{k} e^{f_i(X)}$ 或者等效地，交叉熵。

现在如果 $f(X)$ 是线性的，这正是softmax回归算法，如果 $f(X)$ 是多项式或因式分解机或任何输出实数的分类算法？

我想到了这种方法的一些缺点：

参数随类数线性缩放
损失函数可能是非凸的且难以优化
原始二元分类器的理论性质/保证可能会丢失

这与经典的 1-v-1 或 1-v-all 方法相比如何？

$\dagger$ 仅有的 $k-1$ 因为 softmax 被过度参数化，所以需要