损失函数和决策函数有什么区别?

机器算法验证 回归 分类 数据挖掘 决策理论
2022-01-30 08:34:06

我看到这两个函数都是数据挖掘方法的一部分,例如Gradient Boosting Regressors。我看到这些也是单独的对象。

两者之间的关系一般如何?

2个回答

决策函数是将数据集作为输入并给出决策作为输出的函数决定是什么取决于手头的问题。示例包括:

  • 估计问题: “决定”就是估计。
  • 假设检验问题:决定是拒绝还是不拒绝原假设。
  • 分类问题:决策是将新的观察(或观察)分类到一个类别中。
  • 模型选择问题:决定是选择一个候选模型。

通常,有无限数量的决策函数可用于一个问题。例如,如果我们有兴趣根据十个观察值估计瑞典男性的身高,我们可以使用以下任何决策函数x=(x1,x2,,x10)d(x)

  • 样本均值:d(x)=110i=110xi
  • 样本的中位数:d(x)=median(x)
  • 样本的几何平均值:d(x)=x1x1010
  • 始终返回 1 的函数:,无论的值如何。很傻,是的,但它仍然是一个有效的决策函数。d(x)=1x

那么我们如何确定使用这些决策函数中的哪一个呢?一种方法是使用损失函数,它描述了与所有可能决策相关的损失(或成本)。不同的决策功能往往会导致不同类型的错误。损失函数告诉我们应该更关注哪种类型的错误。最佳决策函数是产生最低预期损失的函数。预期损失的含义取决于设置(特别是,我们是在谈论常客统计还是贝叶斯统计)。

总之:

  • 决策函数用于根据数据做出决策。
  • 损失函数用于确定使用哪个决策函数。

损失函数是最小化的,以获得某种意义上的最优模型。模型本身具有用于预测的决策函数。

例如,在 SVM 分类器中:

  • 损失函数:最小化分离超平面的误差和平方范数L(w,ξ)=12w2+Ciξi
  • 决策函数:到分离超平面的有符号距离:f(x)=wTx+b