我正在研究一个分类问题。我在这个数据集中有 1000 多个特征。我不知道如何选择真正有助于预测输出的正确变量/特征。我可以通过哪些不同的方法来识别这 1000 多个变量中可以使用的重要变量。
如何找到分类问题的输入变量?
数据挖掘
分类
算法
特征选择
2021-09-20 09:18:01
3个回答
想到了两种方法:
- 使用所有这些并执行特征选择以识别指示性特征。算法包括信息增益和互信息。
- 手工挑选一些您认为直观的特征,或删除您认为非指示性的特征。
通常,您有某种假设,您正在测试您证明您的特征(以及您将使用的算法)(以及您将使用的算法)能够唯一地识别它们所属的标签/类的能力。您使用的功能是分类任务中最重要的事情之一。因此,最好花时间智能地找出哪些功能有贡献。
对于此任务,您确实有很多可能的特征,因此自动特征选择方法可能会更好。
特征选择的一般方法是对数据集中的每个特征进行评分,然后选择最上面的特征。我们可以对所有变量运行诸如 GBM 或随机森林之类的算法,以获得变量重要性的排名。我们还可以使用带有交叉验证的 χ²(卡方)统计量来选择用户指定的具有最高得分的特征百分位数。但是,这些方法的缺点是无法检测特征之间的相关性。
我们还可以使用反向消除:对特征进行一一测试,从数据集中删除静态不显着的特征。在前向选择中,从数据集中的任何变量开始,然后添加静态显着的变量。希望这可以帮助。
您可以执行基于 L1 范数进行惩罚的逻辑回归(如果您的因变量有两个类别)。您可以选择正确的稀疏参数(通常),它根据交叉验证选择寻求稀疏性的强度。该模型将强制许多非信息特征为0。这是特征选择的一种形式。见这里:http ://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
其它你可能感兴趣的问题