我应该为我的 XGBoost 训练集创建元特征吗?

数据挖掘 xgboost 特征工程
2022-02-11 05:18:00

假设我有两个(不一定是独立的)特征AB我的数据集。我应该从它们创建元特征吗?比如说比率:

AB

1个回答

是的。

您应该考虑每个提议的元特征的物理意义,以及它是否与手头的问题相关。例如,假设您对患者体温感兴趣。你可以添加height2height3,因为它们大致与表面积(患者通过该表面积将热量散失到凉爽的环境)和体积(组织呼吸产生热量)成正比。当然,如果有耐心,您可能会选择丢弃最后一个,因为它很愚蠢weight是您的数据集的一部分。如果你的对象是从老鼠到大象的哺乳动物,那么这个立方条目可能仍然具有一定的预测能力。

将一对价格相乘以获得以美元为单位的一列并不是一个好主意。

在熟悉的 iris 数据集中,用长度乘以宽度来获得萼片面积或花瓣面积绝对是有意义的,就像划分它们一样,可以获得纵横比。

如果元特征不能改善训练错误,那么当然丢弃它并继续前进。