我在某处读到,如果您的特征集中的维数非常多,那么与线性内核相比,RBF(或任何其他)等非线性内核可能无助于提高准确性。
这样做的直观原因是什么?
同一篇文章(我认为这是 CrossValidated 上的答案之一)提到这是处理文本数据时的典型案例,因为特征数量通常非常多。
我在某处读到,如果您的特征集中的维数非常多,那么与线性内核相比,RBF(或任何其他)等非线性内核可能无助于提高准确性。
这样做的直观原因是什么?
同一篇文章(我认为这是 CrossValidated 上的答案之一)提到这是处理文本数据时的典型案例,因为特征数量通常非常多。
使用核函数的动机是将数据映射到(通常是更高维的)特征空间,在该空间中更容易线性地分离数据。如果输入空间是高维的,则数据通常已经(几乎)可分离,因此无需映射到更高维的特征空间。
理论上,使用 RBF 内核可以获得的最佳模型至少与最佳线性模型一样好。在实践中,非线性内核提供的改进通常不值得额外的计算工作。