我有一个二元分类问题,假设人们可以购买或不购买某种产品。现在与标准预测任务不同,我只想找出哪些特征对人们的购买决定最重要。
我应该使用哪个指标来优化算法?最大限度地提高样本外的准确性,例如我何时对做出最佳预测感兴趣?或者最大化拟合并且不关心过度拟合?两者的混合物?
我正在使用xgboost.
我有一个二元分类问题,假设人们可以购买或不购买某种产品。现在与标准预测任务不同,我只想找出哪些特征对人们的购买决定最重要。
我应该使用哪个指标来优化算法?最大限度地提高样本外的准确性,例如我何时对做出最佳预测感兴趣?或者最大化拟合并且不关心过度拟合?两者的混合物?
我正在使用xgboost.
理想情况下,您应该以与选择最佳模型超参数相同的方式选择特征,并使用验证集。
您对这些功能如何处理看不见的数据感兴趣,而不是您的训练数据。
根据您的特征选择算法,特征搜索将难以处理更大的数据。朴素的特征选择是 O(2^n) 并且某些模型超参数可能取决于您选择的特征。
一种潜在的方法:
xgboost参数并继续执行步骤 2。