对于分类,特征应该相关还是不相关?

数据挖掘 分类 特征工程 非参数 方差分析
2021-09-26 00:46:22

我见过研究人员使用 pearson 相关系数来找出相关特征——以保留与目标具有高相关值的特征。这意味着相关特征在找出分类问题中的目标时提供了更多信息。然而,我们删除了冗余且相关值非常可忽略的特征。

Q1) 与目标变量高度相关的特征是否应该从分类问题中包含或删除?这一步有更好/优雅的解释吗?

Q2)当涉及多个变量时,我们如何知道数据集是线性的?数据集是线性的是什么意思?

Q3)如何检查非线性情况的特征重要性?

3个回答

Q1) 与目标变量高度相关的特征是否应该从分类和回归问题中包含或删除?这一步有更好/优雅的解释吗?

实际上,除了在必要时减少特征数量外,没有充分的理由保留或删除与目标响应相关性较低的特征:

  • 相关性经常用于特征选择是正确的。特征选择用于降维目的,即主要是为了避免由于具有太多特征/没有足够实例而导致的过度拟合(它比这更复杂,但这是主要思想)。我的观点是,如果特征的数量不是问题,则几乎没有理由删除特征,但如果这是一个问题,那么只保留信息量最大的特征是有意义的,并且高相关性是“信息量”的指标(信息增益是另一种选择特征的常用措施)。
  • 通常使用基于测量单个特征贡献的特征选择方法,因为它们非常简单并且不需要复杂的计算。然而,它们很少是最优的,因为它们没有考虑到特征组的互补性,而大多数监督算法可以很好地使用这一点。有更先进的方法可以考虑到这一点:最简单的一种是蛮力方法,它包括使用任何可能的特征子集重复测量性能(通常使用交叉验证)......但这可能需要大量的功能集的大量时间。

然而,高度相关的特征(即特征之间,而不是目标响应)通常应该被删除,因为它们是多余的,并且一些算法不能很好地处理这些。不过,它很少系统地完成,因为这又涉及到大量的计算。

Q2)当涉及多个变量时,我们如何知道数据集是线性的?数据集是线性的是什么意思?

确实,相关性度量是基于线性假设的,但这很少是主要问题:如上所述,它被用作“信息量”的简单指标,并且众所周知它是不完美的,因此线性假设在这里并不那么重要.

如果响应变量可以表示为特征的线性方程,则数据集将是线性的(即理论上可以通过线性回归获得近乎完美的性能)。

Q3)如何为非线性情况做特征重要性?

信息增益KL 散度,可能还有其他一些措施。但是使用这些来单独选择特征也是不完美的。

对于特征工程,有不同的方法。

Pearson Correlation属于过滤器方法。过滤器方法给出了高层次的直觉。这可能是特征工程的第一步。在这个过程中

  • 应考虑与目标具有高度相关性的特征。

  • 彼此之间具有高度相关性的特征也应该被删除,因为“他们正在扮演两个独立变量做同样的工作”,那么为什么要保留两者。

在考虑了相关方法之后,您还可以深入研究基于Wrapper的方法,这些方法对于特征选择更加稳健,但包括训练过程的负担。

有关不同方法的介绍,请参阅此内容。

  1. 鉴于几种相关性措施正在流行。高相关性并不能保证实质性关系。在包含在模型 2 中之前对其进行测试。线性或非线性关系需要检查单个变量。一些变量可能与目标变量具有线性或非线性关系。其余变量可能与目标变量没有任何关系。3.您的问题太模糊,检查特征重要性与非线性无关。