在创建预测模型时,以下哪一组步骤选项是正确的?
选项1:
首先消除最明显的坏预测器,如果需要,对剩余的预测器进行预处理,然后用交叉验证训练各种模型,挑选几个最好的,确定每个人使用过的顶级预测器,然后只用这些预测器重新训练这些模型并评估准确性再次使用交叉验证,然后选择最好的一个并使用其关键预测器在完整的训练集上对其进行训练,然后使用它来预测测试集。
选项 2:
首先消除最明显的坏预测器,然后根据需要对剩余的预测器进行预处理,然后使用特征选择技术,例如具有交叉验证的递归特征选择(例如带有 rf 的 RFE)来识别关键预测器的理想数量以及这些预测器的含义是,然后用交叉验证训练不同的模型类型,看看哪一个模型在前面确定的那些顶级预测变量中给出了最好的准确性。然后在整个训练集上使用这些预测器再次训练其中最好的一个,然后用它来预测测试集。