决策树中的复杂度参数

机器算法验证 r 自习 大车
2022-03-21 11:57:35

由于计算复杂度参数?它的意义是什么?

根据我的阅读,cp 是树在节点中进行划分的值,直到相对误差的减少小于某个值。

我读到有些地方说 CP 只影响树木的生长,而其他人说这也会干扰修剪。因为 min 似乎只干扰生长但不确定。

我正在使用 rpart() 包创建树,在分类树存在错误分类率的情况下评估评级,但在回归的情况下是不是评估超出 MSE 的预测?

1个回答

这在这个rpart资源中得到了回答。从 p。25:

对于回归模型(见下一节),缩放cp有一个非常直接的解释:如果任何拆分不会使模型的整体至少增加(其中是通常的线性模型定义),那么该拆分是先天注定不值得追求。该程序不会进一步拆分所述分支,并节省大量计算工作。R2cpR2

同一页给出了这个cp参数如何影响树木风险计算的公式:

Rcp(T)R(T)+cp|T|R(T1)

是一棵没有分裂的树,树中的分裂。风险的完整正式定义超出了您的问题范围,但作为参考,定义在第 4 页。)T1|T|