我了解数据卫生,这可能是最基本的特征工程。那就是确保正确加载所有数据,确保将N/A
s 视为特殊值而不是 -1 和 1 之间的数字,并正确标记分类值。
过去我做过很多线性回归分析。所以特征工程主要关注:
- 使用对数、指数、幂变换将特征调整到正确的比例
- 乘法特征:如果你有高度和宽度,乘以形成面积
- 选择特征:根据P值去除特征
但是,对于 LightGBM(和随机森林)来说,特征的规模似乎并不重要,因为可订购的项目是有序的,然后随机平分。特征的交互并不重要,因为如果它很重要,弱分类器之一应该找到它。并且特征选择并不重要,因为如果效果很弱,那么这些分类器就会被削弱。
那么,假设你找不到更多的数据来引入,那么决策树模型应该做哪些特征工程呢?