鉴于以下约束,我正在尝试解决预测问题:
- 我需要一个可解释的模型用于实验验证
- 我需要一个执行特征选择的模型,以将 ~20000 个特征减少到 ~100 个
- 我需要模型保留相关特征,而不是简单地任意选择其中一个
- 我想用少量样本进行建模(最坏的情况约为 50 个样本)
Lasso 执行特征选择,但弹性网络允许添加 Ridge 回归项来选择相关变量,而不是任意选择一个。所以我相信这是这个案例的最佳模型。
我会在交叉验证中使用交叉验证来选择 alpha 来选择 lambda。但是约束 4(样本数量少)是双重交叉验证的瓶颈。这导致我想任意选择 alpha = 0.5 而不是优化最佳值。
这有意义吗?有道理吗?或者换句话说,当这部作品即将出版时,它会被批评为一种武断的选择吗?如果是这样,我有什么选择?