我想训练一个支持向量机来根据 20 个属性对案例(真/假)进行分类。我知道其中一些属性是高度相关的。因此我的问题是:SVM 是否对特征之间的相关性或冗余敏感?有什么参考吗?
支持向量机是否对属性之间的相关性敏感?
机器算法验证
支持向量机
多重共线性
内核技巧
2022-03-05 20:37:25
1个回答
线性核:这里的效果类似于线性回归中的多重共线性。对于训练集中的微小变化,您的学习模型可能不是特别稳定,因为不同的权重向量将具有相似的输出。但是,训练集的预测将相当稳定,因此如果它们来自相同的分布,它们也会测试预测。
RBF 内核: RBF 内核只查看数据点之间的距离。因此,假设您实际上有 11 个属性,但其中一个属性重复了 10 次(非常极端的情况)。然后,该重复属性对距离的贡献将是任何其他属性的 10 倍,并且学习模型可能会受到该特征的更大影响。
用 RBF 核折现相关性的一种简单方法是使用马氏距离:, 在哪里是样本协方差矩阵的估计。等效地,映射所有向量到然后使用常规的 RBF 内核,其中是这样的,例如 Cholesky 分解.
其它你可能感兴趣的问题