当您为线性回归的数据分析创建新特征时
,很明显该特征必须与其他特征保持线性更好
但是对于 xgboost 来说,制作新功能的指导方针是什么。
1. xgboost 的新功能指南是什么
2. xgboost 何时拆分功能重要性。放弃不重要的功能会更好吗?
3.如果我想知道这个相关领域我应该学习什么,请告诉我链接和书籍或其他资源
当您为线性回归的数据分析创建新特征时
,很明显该特征必须与其他特征保持线性更好
但是对于 xgboost 来说,制作新功能的指导方针是什么。
1. xgboost 的新功能指南是什么
2. xgboost 何时拆分功能重要性。放弃不重要的功能会更好吗?
3.如果我想知道这个相关领域我应该学习什么,请告诉我链接和书籍或其他资源
1) 没有针对 xgboost 的新功能甚至线性回归的指南。特征不一定必须与线性回归中的结果线性相关,可以使用转换和交互来捕获非线性关系。问题?在线性回归中,我们必须手动对非线性进行建模,如果您拥有的不仅仅是少数特征并且没有太多先验信息,这将是一个痛苦的发现。Xgboost(希望)会自动找到这些非线性关系。
无论您的模型如何,新功能的“指南”实际上都是由手头的实际问题驱动的。也就是说,您对变量 X 和 Y 之间可能存在的关系有什么了解,此外,有没有更好的方法来使用您所知道的当前信息来表达这种关系?这是一个例子;假设我有一个问题,我希望预测一些客户拖欠我提供给他们的贷款的概率。我收到了他们过去的付款历史,以一系列付款(如果已付款)的形式提供。我可以利用我在金融领域的外部知识来知道,有一个明确的公式可以计算过去给定的利率,给定一系列已知间隔的付款。然后,我可以使用这个计算出的利率作为变量来更好地表示客户的相对风险(而不是仅仅汇总付款本身),因为我知道风险较高的人会因为更高的隐含概率而获得更高的利率违约。另一个例子:在保险方面,我国的人们在冬天发生的事故通常比夏天少。也许,如果我试图预测随时间推移发生的事故,我会努力包含一些季节性指标变量。
我已经阅读了 Kuhn 和 Johnson在本书中关于交互特征的一些指南,即更重要的特征通常更有可能成为更好的候选者作为交互(如果你想知道的话,两个或多个预测变量的乘积是交互) .
这个过程通常被称为特征工程,我们本质上是在操纵我们当前的数据,以便模型可以更容易地学习。
2)也许。对于某些问题是的,对于其他问题,不是。维度灾难是真实存在的,而且肯定会导致过度拟合。可以使用 xgboost 中的特征重要性来删除变量并改进它们的模型,但这样做时通常会过度拟合训练集,实际上可能会使模型变得更糟,而不是什么都不做。因此,将这个过程包装在交叉验证方案中以查看特征选择过程是否真正改进了您的模型,这一点非常重要。使用特征重要性分数进行变量选择的两种流行算法是递归特征消除和排列方法(所谓的“零重要性”)。
3) 不幸的是,尽管特征选择、提取和工程是目前正在研究的非常富有成果的主题,但该主题在文献中并未得到很好的涵盖。话虽如此,上述这本书可能对你有用(目前正在进行中,所以它可能不会永远免费):