在创建 CART 模型的 rpart() 例程中,您指定要修剪树的复杂度参数。我已经看到了两种不同的选择复杂度参数的建议:
选择与最小可能的交叉验证错误相关的复杂性参数。Quick-R和 HSAUR推荐使用此方法。
选择其估计的交叉验证误差仍在最小可能交叉验证误差的 SE 内的最大复杂度参数。这是我对包文档的解释,其中说:“用于修剪的 cp 的一个好的选择通常是平均值位于水平线下方的最左边的值”,参考此图。
cp 的两种选择在我的数据集中产生了完全不同的树。
似乎第一种方法总是会产生更复杂、可能过度拟合的树。是否还有其他优点、缺点、文献中的建议等。在决定使用哪种方法时我应该考虑到这些?如果有用的话,我可以提供有关我的特定建模问题的更多信息,但我试图使这个问题足够广泛,以便与其他人相关。