我有一个包含大约 100 个样本的数据集,每个样本都有 >10,000 个特征,其中一些特征高度相关。这是我目前正在做的事情。
将数据集分成三部分。
对于每一折,
2.1 对 100 个 lambda 值运行弹性网络。(这将返回一个 nfeatures x 100 矩阵)
2.2 取所有非零权重的并集。(返回一个 nfeatures x 1 向量)选择与2.2返回的非零权重对应的特征
使用这些功能来训练和测试 SVM。
我的问题是,在第 3 步中,每次折叠我都会得到一组不同的功能。我如何从中得到一个最终模型?一份相关功能的最终清单?我可以对所有折叠在步骤 3 中选择的特征进行交集吗?在所有三个折叠中选择的特征似乎是最稳定/最重要的。我可以这样做,还是作弊?