我见过研究人员使用 pearson 相关系数来找出相关特征——以保留与目标具有高相关值的特征。这意味着相关特征在找出分类问题中的目标时提供了更多信息。然而,我们删除了冗余且相关值非常可忽略的特征。
Q1) 与目标变量高度相关的特征是否应该从分类问题中包含或删除?这一步有更好/优雅的解释吗?
Q2)当涉及多个变量时,我们如何知道数据集是线性的?数据集是线性的是什么意思?
Q3)如何检查非线性情况的特征重要性?
我见过研究人员使用 pearson 相关系数来找出相关特征——以保留与目标具有高相关值的特征。这意味着相关特征在找出分类问题中的目标时提供了更多信息。然而,我们删除了冗余且相关值非常可忽略的特征。
Q1) 与目标变量高度相关的特征是否应该从分类问题中包含或删除?这一步有更好/优雅的解释吗?
Q2)当涉及多个变量时,我们如何知道数据集是线性的?数据集是线性的是什么意思?
Q3)如何检查非线性情况的特征重要性?
Q1) 与目标变量高度相关的特征是否应该从分类和回归问题中包含或删除?这一步有更好/优雅的解释吗?
实际上,除了在必要时减少特征数量外,没有充分的理由保留或删除与目标响应相关性较低的特征:
然而,高度相关的特征(即特征之间,而不是与目标响应)通常应该被删除,因为它们是多余的,并且一些算法不能很好地处理这些。不过,它很少系统地完成,因为这又涉及到大量的计算。
Q2)当涉及多个变量时,我们如何知道数据集是线性的?数据集是线性的是什么意思?
确实,相关性度量是基于线性假设的,但这很少是主要问题:如上所述,它被用作“信息量”的简单指标,并且众所周知它是不完美的,因此线性假设在这里并不那么重要.
如果响应变量可以表示为特征的线性方程,则数据集将是线性的(即理论上可以通过线性回归获得近乎完美的性能)。
Q3)如何为非线性情况做特征重要性?
对于特征工程,有不同的方法。
Pearson Correlation属于过滤器方法。过滤器方法给出了高层次的直觉。这可能是特征工程的第一步。在这个过程中
应考虑与目标具有高度相关性的特征。
彼此之间具有高度相关性的特征也应该被删除,因为“他们正在扮演两个独立变量做同样的工作”,那么为什么要保留两者。
在考虑了相关方法之后,您还可以深入研究基于Wrapper的方法,这些方法对于特征选择更加稳健,但包括训练过程的负担。
有关不同方法的介绍,请参阅此内容。