添加特征会使模型恶化的特征选择

数据挖掘 机器学习 特征选择 matlab 过拟合
2022-02-27 09:19:19

ķ在此处输入图像描述

我正在训练一个具有 144 个特征的 kNN 分类器,并绘制了准确率与使用的特征数量的关系图并得到了这个。图表某些点的准确性下降的原因可能是什么?我正在使用加速度计-陀螺仪-磁力计融合来识别人类活动。

提出的一个是验证准确性。我应该改用训练准确性吗?为什么?

我使用 ReliefF 特征选择算法对特征进行了排名。

我使用了时域特征,例如均值、标准差、rms、中值、方差、iqr、mad、zcr 和 mcr,以及频域特征,例如偏度、峰度和 pca

以下是选择的前 8 个功能。峰值准确度出现在 8 个特征处。 在此处输入图像描述

1个回答

我猜加速度计-陀螺仪-磁力计的测量结果在某种意义上是嘈杂和多余的。这意味着您可以在测量值之间找到某种相关性,例如加速度计和陀螺仪的值之间的相关性。

PCA 捕获数据变化的主要方向,消除测量之间的相关性并降低噪声,从而提高准确性。从图中可以看出,当使用所有特征时,准确率只是略有下降。

我将考虑的其他因素是特征的大小,一个非常大的特征会影响 K-NN 的行为。