数据挖掘 - 需要输入分类模型中的哪些特征 - 吾爱随笔录

需要输入分类模型中的哪些特征

数据挖掘机器学习 Python 分类

2022-02-19 03:26:12

这是特征与我的目标变量的相关性。我已经完成了所有的功能工程，但我还剩下这些功能。

关于为模型训练保留哪些列以及要删除哪些列的任何输入。是否有任何标准可以删除我不需要的功能。似乎信用记录是唯一具有高度相关性的特征。

Loan_ID              0.011610
Gender               0.017987
Married              0.091478
Education           -0.085884
Self_Employed       -0.003700
ApplicantIncome     -0.004710
CoapplicantIncome   -0.059187
LoanAmount          -0.037318
Loan_Amount_Term    -0.022549
Credit_History       0.561678
Total_Income        -0.031271
Total_Income_Log     0.007240
LoanAmt_Log         -0.037536
CH__0               -0.540556
CH__1                0.432616
EMI                 -0.011552
EMI_Log             -0.028496
Dependents_1        -0.038740
Dependents_2         0.062384
Dependents_3        -0.026123
Property_Area_1      0.136540
Property_Area_2     -0.043621
Loan_Status          1.000000
Name: Loan_Status, dtype: float64

1个回答

欢迎来到社区赛！

假设您的问题是回归问题（即您有持续目标）。

有几点：

首先，这方面没有书面规定。特征工程是一种 EDA。没有最终的解决方案。你的模型选择策略会选择一些。
提醒一下，如果这些是 Pearson 相关性，请注意可能存在非线性相关性，而线性相关性分析无法捕捉到这些相关性。再加上线性相关分析总是伴随着视觉检查的事实。
负相关抑制信息。如果每当一个变量增加另一个变量就会减少，那么知道它会告诉你另一个变量！所以把它们考虑进去。您最好使用互信息来检查依赖关系。
稀疏线性模型似乎在这里卓有成效。我建议让LASSO或Ridge Regression选择最终的特征集。
如果您真的坚持当前的方式（例如，如果您的主管要求这样做），请使用阈值作为模型选择的超参数并找到最优值。这意味着，您使用不同的阈值（这会导致不同的特征集）训练和验证您的模型，并根据经验误差（验证误差）选择最佳阈值。

希望它有所帮助。祝你好运！

其它你可能感兴趣的问题

上一篇如何使用现有列的某些行在熊猫中创建新列？下一篇为什么 RNN 有输入形状错误？