我正在研究音频文件的分类。这是一个二元分类,我打算使用 SVM。我以前使用过 SVM 进行人脸匹配和其他图像分析和检索。
我已经从音频文件中提取了所需的特征向量,即训练和测试数据集,并通过使用主成分分析降低了它们的维数。我想知道在应用 SVM 分类和预测之前是否还有其他必要的步骤?应用 PCA 后得到的测试和训练数据集应该归一化还是居中?应用归一化/中心化后结果会有所不同(更好/更差)吗?或者在应用 SVM 之前,还有其他方法可用于预处理数据吗?
我正在研究音频文件的分类。这是一个二元分类,我打算使用 SVM。我以前使用过 SVM 进行人脸匹配和其他图像分析和检索。
我已经从音频文件中提取了所需的特征向量,即训练和测试数据集,并通过使用主成分分析降低了它们的维数。我想知道在应用 SVM 分类和预测之前是否还有其他必要的步骤?应用 PCA 后得到的测试和训练数据集应该归一化还是居中?应用归一化/中心化后结果会有所不同(更好/更差)吗?或者在应用 SVM 之前,还有其他方法可用于预处理数据吗?
建议将所有输入缩放到设定的间隔(或是流行的选择)。这样,您就不会对碰巧具有较大值的特定输入产生任何偏见。缩放对准确性有很大影响。确保在训练和测试数据上使用相同的比例因子。
有关更多信息,您可以查看SVM 分类的实用指南。