我目前正在尝试预测低概率事件的概率(~1%)。我有具有约 200,000 个向量(约 2000 个加样例)和约 200 个特征的大型数据库。我正在尝试为我的问题找到最好的功能。推荐的方法是什么?(在 Python 或 R 中首选,但不一定)
低概率事件预测的特征选择
机器算法验证
机器学习
特征选择
不平衡类
2022-04-07 15:04:58
2个回答
我的第一个建议是,除非识别信息特征是分析的目标,否则不要为特征选择而烦恼,只需使用正则化模型,如惩罚逻辑回归、岭回归或 SVM,并让正则化处理-配件。人们常说特征选择提高了分类器的性能,但并非总是如此。
为了处理类不平衡问题,在计算用于拟合模型的损失函数时,为每个类的模式赋予不同的权重。通过交叉验证选择权重比(对于概率分类器,您可以计算出渐近最优权重,但它通常不会在有限样本上给出最优结果)。如果您使用的分类器不能为每个类赋予不同的权重,则改为对多数类进行子采样,其中正负模式的比率再次由交叉验证确定(确保每个折叠中的测试分区的交叉验证过程具有您期望在操作中看到的相同的相对类频率)。
最后,在实际应用中经常出现类不平衡的情况,即假阳性和假阴性的严重程度不同,因此将其纳入分类器的构造中。
估计概率的问题属于“回归”的范畴,因为概率是条件均值。用于回归的经典特征选择方法(AKA“子集选择”或“模型选择”)方法包括最佳 k、前向和后向逐步以及前向阶段,所有这些都在“统计学习要素”的第 3 章中进行了描述。但是,这种方法通常成本高昂,并且考虑到数据集中的特征数量,我的选择是使用glmpath,它使用非常高效的 LARS 算法的修改来实现 L1 正则化回归。
编辑:有关 L1 正则化的更多详细信息。 (正则化常数)生成整个“套索”路径,范围从 0 到. 在, 使用所有特征;在,没有一个特征具有非零系数。介于两者之间的值为使用了 1 到 199 个特征。
使用 LARS 的结果可以选择具有最佳性能(根据任何标准)。然后,仅使用具有非零系数的特定特征,然后可以为最终预测拟合一个非正则化逻辑回归模型。
其它你可能感兴趣的问题