内核方法有哪些限制以及何时使用内核方法?

机器算法验证 机器学习 内核技巧
2022-02-09 10:42:13

核方法在许多监督分类任务中非常有效。那么内核方法的局限性是什么,何时使用内核方法呢?尤其是在大规模数据时代,核方法有哪些进步?内核方法和多实例学习有什么区别?如果数据是500x10000500是样本数,10000是每个特征的维度,那么在这种情况下,我们可以使用核方法吗?

1个回答

核方法可用于有监督和无监督问题。众所周知的例子分别是支持向量机核谱聚类

内核方法提供了一种结构化的方式来在变换的特征空间中使用线性算法,对于这种变换通常是非线性的(并且到更高维空间)。这种所谓的内核技巧带来的关键优势是可以以合理的计算成本找到非线性模式。

请注意,我说计算成本是合理的,但不可忽略。核方法通常构造一个核矩阵KRN×NN训练实例的数量。因此,核方法的复杂性是训练实例数量的函数,而不是输入维数的函数。例如,支持向量机的训练复杂度介于O(N2)O(N3). 对于非常大的问题N,这种复杂性目前令人望而却步。

当维数很大且样本数相对较低(例如,少于 100 万)时,这使得内核方法从计算的角度非常有趣。

相关:支持向量机的线性核和非线性核?

大规模问题的 SVM

对于非常高维度的问题,比如10000你在问题中提到的维度,通常不需要映射到更高维度的特征空间。输入空间已经足够好了。对于此类问题,线性方法的速度要快几个数量级,并且预测性能几乎相同。这些方法的示例可以在LIBLINEARVowpal Wabbit中找到。

当您在高维输入空间中有许多样本时,线性方法特别有趣。当你只有500样本,使用非线性核方法也会很便宜(因为N是小)。如果你有,说,5.000.000样品在10.000尺寸,内核方法将是不可行的。

对于具有许多训练实例的低维问题(所谓的大N小的p问题),线性方法可能会产生较差的预测准确性。对于此类问题,与标准 SVM 相比, EnsembleSVM等集成方法以显着降低的计算成本提供非线性决策边界。