我有 10 个特征(全部为数字)和一个二进制结果变量的集合。我需要训练一个二元分类模型,找到最佳特征并计算每个特征的阈值。
为了找到最好的特征子集很容易,我使用逻辑回归和 L1 惩罚,它工作得很好。但是,下一步是为每个子选择的特征找到阈值:如果特征i,j,... k的值高于/低于某些数值,则有可能属于 A 类(而不是 B ) 更高。
例如
考虑一下,我们发现在 10 个原始特征中,L1 的叶子只有 3 个:F1、F4、F7。如果你取三个具有某些值 {F1_i, F4_i, F7_i} 的看不见的(新)数据,其中
F1 > 1.23
F4 < 7.15
F7 > 2.74
那么新的数据点{F1_i, F4_i, F7_i}属于A类。这里{1.23, 7.15, 2.74}是阈值。
我试图尽可能清楚地解释问题,但如果不是,请告诉我。
问题解决这个问题的最佳方法是什么?如何计算阈值?