基于与目标变量的相关性忽略特征

数据挖掘 特征选择 相关性 特征工程
2021-10-08 08:05:26

在分类问题中基于其 Pearson 相关值与目标变量来消除特征是否有效?

例如,我有一个具有以下格式的数据集,其中目标变量取 1 或 0:

>>> dt.head()
   ID  var3  var15  imp_ent_var16_ult1  imp_op_var39_comer_ult1  \
0   1     2     23                   0                        0   
1   3     2     34                   0                        0   
2   4     2     23                   0                        0   
3   8     2     37                   0                      195   
4  10     2     39                   0                        0   

   imp_op_var39_comer_ult3  imp_op_var40_comer_ult1  TARGET  
0                        0                        0       0  
1                        0                        0       0  
2                        0                        0       0  
3                      195                        0       0  
4                        0                        0       0 

计算相关矩阵给出以下值

|ID|var3|var15|imp_ent_var16_ult1|imp_op_var39_comer_ult1|imp_op_var39_comer_ult3|imp_op_var40_comer_ult1|TARGET
ID|1.0|-0.00102533166614|-0.00213549813966|-0.00311137548461|-0.00143645708778|-0.00413114484307|-0.00727672024906|0.0031484687227
var3|-0.00102533166614|1.0|-0.00445177129541|0.0018681447614|0.00598903116859|0.00681691701467|0.00151753041397|0.00447479817554
var15|-0.00213549813966|-0.00445177129541|1.0|0.0437222608106|0.0947624170998|0.101177078747|0.0427540973727|0.101322098561
imp_ent_var16_ult1|-0.00311137548461|0.0018681447614|0.0437222608106|1.0|0.0412213212518|0.0348787079026|0.00989582043194|-1.74602537678e-05
imp_op_var39_comer_ult1|-0.00143645708778|0.00598903116859|0.0947624170998|0.0412213212518|1.0|0.886476049204|0.342709191344|0.0103531295754
imp_op_var39_comer_ult3|-0.00413114484307|0.00681691701467|0.101177078747|0.0348787079026|0.886476049204|1.0|0.316671244555|0.0035169224417
imp_op_var40_comer_ult1|-0.00727672024906|0.00151753041397|0.0427540973727|0.00989582043194|0.342709191344|0.316671244555|1.0|0.00311938694896
TARGET|0.0031484687227|0.00447479817554|0.101322098561|-1.74602537678e-05|0.0103531295754|0.0035169224417|0.00311938694896|1.0

消除与目标的相关性低于阈值(例如,0.1)的所有特征是否有效?

如果在相关属性是连续变量的情况下存在高达 1 的强属性间相关性怎么办,这是否意味着这些特征为学习者保存了冗余信息?我可以安全地删除其中一个而不冒丢失信息的风险吗?

2个回答

您确实遇到了分类问题,而不是回归问题。您的目标不是连续的,Pearson 相关性确实衡量了连续变量之间的关系。这已经足够开始了。

低相关性意味着没有线性关系;这并不意味着特征中没有预测目标的信息。

我认为您真的在寻找互信息,在这种情况下是在连续变量和分类变量之间。(我假设您的其他输入是连续的?)这有点涉及;请参阅https://stats.stackexchange.com/questions/29489/how-do-i-study-the-correlation-between-a-continuous-variable-and-a-categorical

如果您尝试进行特征选择,则可以使用 L1 正则化执行逻辑回归,并根据其系数的绝对值选择特征。

请注意,皮尔逊相关(和互信息)考虑了概念和单一特征。

在某些情况下,单个功能是无用的,但如果有更多功能,它就会变得很重要。

考虑一个概念,它是某些特征的 XOR。鉴于所有功能,这个概念是完全可以预测的。给定其中之一,您有 0 MI。

一个更真实的例子是死亡时的年龄。出生日期和死亡日期给你年龄。其中之一将具有非常低的相关性(由于预期寿命的增加)。