我有这种直觉,但我无法验证它。
有很多技术可以理解 ML 模型中单个特征的影响。有些人从反事实框架(如其他条件不变)中汲取灵感,并评估特征的无条件贡献通过观察变化时预测的变化值保持所有其他变量固定。此类技术中最常见的是 PDP https://christophm.github.io/interpretable-ml-book/pdp.html。
问题是这种方法对于预测变量的不可能组合并不稳健。例如,在给定天气条件和一年中的某个时段来预测共享单车数量的模型中,即使在训练集中没有这样的数据点,也可以预测冬季温度为 40°C。
有多种技术可以适应这种偏差,例如累积局部估计图 (ALE)。我想知道基于树的方法(简单或集成)是否自然比基于回归的方法更能抵抗这种偏差;我期待这一点,因为基于树的预测仅在数据中存在的特征空间的分区之间变化,而回归允许从未观察到的预测变量组合的预测变化。
例如,这是针对自行车问题训练的条件树的输出:
[1] root
| [2] temp <= 12.2
| | [3] season in SPRING, SUMMER
| | | [4] temp <= 4: 1663 (n = 64, err = 30258081)
| | | [5] temp > 4: 2852 (n = 133, err = 216353574)
| | [6] season in WINTER
| | | [7] hum <= 82.3: 4315 (n = 90, err = 117371810)
| | | [8] hum > 82.3: 2781 (n = 9, err = 26537744)
| [9] temp > 12.2
| | [10] hum <= 84.8
| | | [11] windspeed <= 13.2: 5877 (n = 256, err = 454812206)
| | | [12] windspeed > 13.2: 5285 (n = 149, err = 326330122)
| | [13] hum > 84.8: 3382 (n = 30, err = 47251364)
正如预期的那样,温度和季节是相关的,因此我们不会找到关于更高(> 12.2)温度的冬季规则。
因此,我预计将温度强制为 14 度的冬季不会产生与夏季不同的预测。我还希望这种鲁棒性也可以复制到更复杂的黑盒模型,如随机森林和增强树。
相反,基于回归的方法将允许不可能的预测,如以下线性模型所示,其中温度的影响是无限的。
(Intercept) temp seasonWINTER hum windspeed seasonSUMMER holidayHOLIDAY
4888.4 152.1 1307.1 -37.6 -64.0 673.2 -621.4
有人可以确认/反驳这一点,最好用基于理论的解释吗?