我非常习惯将对数损失、RMSE、交叉熵等函数视为目标函数,很容易想象为什么最小化这些函数会给我们最好的模型。难以想象的是 XGBoost 如何使用 softmax(一种用于对 logits 进行归一化的函数)作为成本函数。正如此处的文档中所述。
如何最小化 softmax 函数?
我非常习惯将对数损失、RMSE、交叉熵等函数视为目标函数,很容易想象为什么最小化这些函数会给我们最好的模型。难以想象的是 XGBoost 如何使用 softmax(一种用于对 logits 进行归一化的函数)作为成本函数。正如此处的文档中所述。
如何最小化 softmax 函数?