在决策树中,使用分裂准则方法,例如信息增益来分裂当前树节点以构建决策树,但在许多机器学习问题中,通常需要最小化成本/损失函数以获得最佳参数。
我的问题是如何定义决策树的这种成本函数?
在决策树中,使用分裂准则方法,例如信息增益来分裂当前树节点以构建决策树,但在许多机器学习问题中,通常需要最小化成本/损失函数以获得最佳参数。
我的问题是如何定义决策树的这种成本函数?
我认为它有助于区分训练指标和评估指标,以及全局训练指标和本地训练指标。当我们谈论评估指标时,正如@AlvaroFuentes 所说,总是可以为决策树定义损失函数,就像任何其他模型一样。在训练中,确实经常会选择一个全局指标,并且训练会尝试在该指标上进行优化*。但训练不一定要这样,在决策树的情况下,训练通过贪婪搜索进行,每一步都基于本地度量(例如,信息增益或基尼指数)。事实上,即使定义了全局训练指标(例如似然性),训练中的每一步仍然是基于一些局部指标(例如似然性梯度)进行评估的,因此在某种意义上是“贪婪的”;只是在这种情况下,本地度量受到全局度量的启发。
*旁注:此训练指标通常与评估指标不同,选择它是因为其更好的数学特性来帮助训练;例如,可能性、L2 或交叉熵与准确性或 AUC。
Gareth James 等人的《统计学习导论》第 8 章。讨论决策树如何遵循一种自上而下的贪婪方法,也称为递归二元分裂来对预测空间进行分层。该算法试图做的是,从顶部(包含所有观察值的单个区域)开始,它尝试分析每个预测变量的所有预测变量和所有切点值,以选择具有最小总和的预测变量和切点值的最佳集合平方误差。
这里的误差平方和是分割区域中每个观测值与该区域的平均响应值之间的差异的平方和。这是正在优化的损失函数。
它只是简单的叶子数。在叶子数量相等的情况下,树木将它们的系列交换为并行。你可以自己弄清楚确切的关系。