通过过拟合小样本进行特征选择

数据挖掘 机器学习 深度学习 特征选择 卷积神经网络
2021-10-07 03:18:52

我正在使用基于 CNN 的模型进行序列分类。由于训练一个完整的数据集非常昂贵,而且我有大量的特征需要尝试,所以我不可能通过完整的训练来选择特征。

通常在训练之前进行良好的健全性检查,是尝试让模型过拟合一小组训练样本,以确保模型至少能够记住小样本量。

借用这个想法,我的问题是,我可以训练一小部分训练数据,并使用它的损失曲线作为指标,来选择最佳特征吗?每次训练都是为了测试在给定选定特征子集的情况下训练损失收敛的速度。

1个回答

恭喜!您已独立建议使用Wrapper 方法进行特征选择。是的,您可以使用此方法。但是,考虑到包装器方法很慢,因为您必须为每次迭代训练模型。不仅如此,特征选择是一个 NP 完全问题,所以不要指望最优子集。