我应该从 515 个特征中取出多少个特征?

数据挖掘 机器学习 特征选择 特征提取 matlab
2022-02-27 04:00:29

继续这个问题,我有一个概念性问题。如果我不使用“nfeatures”,那么我将从 515 个功能集中获得 7 个功能。如果我使用值为 10 的“nnfeatures”标签(此标签指定我希望它显示的最小功能数量),那么我将获得这 7 个功能以及 3 个新功能。现在我无法决定我应该采用多少功能。可以从 515 个特征中提取 7 个特征吗?任何 ML 算法都能够仅通过这 7 个特征捕获数据的特征吗?

另一个问题是,在MATLAB中应用sequentialfs算法时,给出了一个判据值。这个判据函数是什么?从此_我开始知道选择了一组平均标准值最低的特征。那么这是否意味着仅选择具有最小标准值的那些特征?另外,如果是这种情况,那么算法如何决定它应该选择多少特征?

1个回答

免责声明: 我对 MATLAB 的了解不足,无法回答完整的问题,但我会尝试回答其余问题

1 - 您应该采用多少功能?

如果这是您要解决的预测问题,您如何尝试分别使用 7 和 10 的特征集来评估预测的准确性?您可能会发现预测能力几乎没有差异,因此取 7 可能没问题。

注意:我很惊讶您的功能选择算法选择了您可用功能的一小部分 - 您想要更深入地挖掘引擎盖下发生的事情是正确的。

2 - 任何 ML 算法都能够仅通过这 7 个特征捕获数据的特征吗?

如果您的特征选择算法运行良好,那么机器学习很可能能够相对轻松地表征数据集的底层结构。

有许多问题有大量的解释变量,但最好的特征是少数几个(例如 GDP 通常可以通过上一季度的情况得到相对较好的解释,所有其他相关变量对预测准确性的影响很小)。

3 - MATLAB 问题:待定

抱歉,我无法回答您的所有问题 - 也许有人会通过 MATLAB 知识来解决问题,我们可以一起回答。否则,您最好将其分成两个问题,以获得有关 MATLAB 算法的更详细的答案。