需要输入分类模型中的哪些特征

数据挖掘 机器学习 Python 分类
2022-02-19 03:26:12

这是特征与我的目标变量的相关性。我已经完成了所有的功能工程,但我还剩下这些功能。

关于为模型训练保留哪些列以及要删除哪些列的任何输入。是否有任何标准可以删除我不需要的功能。似乎信用记录是唯一具有高度相关性的特征。

Loan_ID              0.011610
Gender               0.017987
Married              0.091478
Education           -0.085884
Self_Employed       -0.003700
ApplicantIncome     -0.004710
CoapplicantIncome   -0.059187
LoanAmount          -0.037318
Loan_Amount_Term    -0.022549
Credit_History       0.561678
Total_Income        -0.031271
Total_Income_Log     0.007240
LoanAmt_Log         -0.037536
CH__0               -0.540556
CH__1                0.432616
EMI                 -0.011552
EMI_Log             -0.028496
Dependents_1        -0.038740
Dependents_2         0.062384
Dependents_3        -0.026123
Property_Area_1      0.136540
Property_Area_2     -0.043621
Loan_Status          1.000000
Name: Loan_Status, dtype: float64
1个回答

欢迎来到社区赛!

假设您的问题是回归问题(即您有持续目标)。

有几点:

  1. 首先,这方面没有书面规定。特征工程是一种 EDA。没有最终的解决方案。你的模型选择策略会选择一些。
  2. 提醒一下,如果这些是 Pearson 相关性,请注意可能存在非线性相关性,而线性相关性分析无法捕捉到这些相关性。再加上线性相关分析总是伴随着视觉检查的事实。
  3. 负相关抑制信息。如果每当一个变量增加另一个变量就会减少,那么知道它会告诉你另一个变量!所以把它们考虑进去。您最好使用互信息来检查依赖关系。
  4. 稀疏线性模型似乎在这里卓有成效。我建议让LASSORidge Regression选择最终的特征集。
  5. 如果您真的坚持当前的方式(例如,如果您的主管要求这样做),请使用阈值作为模型选择的超参数并找到最优值。这意味着,您使用不同的阈值(这会导致不同的特征集)训练和验证您的模型,并根据经验误差(验证误差)选择最佳阈值。

希望它有所帮助。祝你好运!