我正在构建一个模型(同时实现逻辑回归和 Xgboost),以了解每个功能在客户是否要回购方面的重要性/重要性,以了解客户回购的重要性(对推论比预测更感兴趣)
我的特征集是这样的:[收入、年龄、价格_产品、折扣、产品类别、送货费用、性别、生活方式、送货时间_主(P_main)、P1、P2、P3、P4等]
P_main 是客户看到的东西,可能会影响他们是否回购的决定。P1 + P2 + P3 + P4 = P_main。我们想了解 P1、P2、P3、P4 有多少重要,以及它们是流程中的阶段,因此我们可以推断如果我们要提高回购率,最应该关注哪个阶段。
特征集是否可以包含部分(P1、P2、P3、P4)以及总和(P_main)作为模型的输入?还是它会引入多重共线性问题?我正在使用方差膨胀因子删除具有多重共线性的特征,然后应用 Lasso 回归。
