我读到决策树(我正在使用 scikit-learn 的分类器)对异常值是稳健的。这是否意味着如果我选择不删除我的异常值,我不会有任何副作用?
决策树对异常值是否稳健
数据挖掘
决策树
2021-09-26 00:22:39
4个回答
最有可能的异常值的影响可以忽略不计,因为节点是根据每个分割区域中的样本比例(而不是它们的绝对值)确定的。
但是,存在选择连续变量分割点的不同实现方式。有些人考虑所有可能的分裂点,有些人考虑百分位数。但是,在一些选择不当的情况下(例如,在等距分割点中划分最小值和最大值之间的范围),异常值可能会导致次优分割点。但是你不应该在流行的实现中遇到这些场景。
它实际上取决于拆分树节点的标准。如果标准对异常值敏感(例如,如果在回归问题中使用方差),则可能会导致问题。
但总的来说,它们非常强大。
是的,所有树算法都对异常值具有鲁棒性。树算法基于相同的值拆分数据点,因此异常值的值不会对拆分产生太大影响。
例如:想要根据客户的房屋大小来确定他们的购买行为。房屋大小是数字连续变量,范围为 1-1000 平方英尺。
所以,现在考虑我的大多数客户的房屋大小在 100-500 之间。如果我有一些房屋大小为 1000 的客户,那么它所做的只是根据某个值拆分数据,其中下一个级别的熵小于当前级别的熵。
拆分决定了房屋大小的价值,这样我将获得更多同质的客户群。
其它你可能感兴趣的问题
