内核技巧解释

数据挖掘 支持向量机 效率
2021-09-27 06:37:26

在支持向量机中,我知道在数据集中的每个点计算基函数在计算上会让人望而却步。然而,由于所谓的内核技巧,有可能找到这个最优解。

这个问题的其他答案使用高级数学和统计术语来正确回答这个问题(我假设),导致一般数据科学观众无法理解它。有人可以发布一个“大图”描述(即,不一定全面或技术上完整)说明内核技巧是什么以及它是如何工作的?

2个回答

内核技巧基于一些概念:您有一个数据集,例如两类 2D 数据,表示在笛卡尔平面上。它不是线性可分的,例如,SVM 无法找到分隔这两个类的线。现在,您可以将这些数据投影到更高维度的空间中,例如 3D,在那里它可以被平面线性分割。

现在,ML 中的一个基本概念是点积。您经常使用一些权重 w(模型的参数)对数据样本的特征进行点积。无需在 3D 中明确地对数据进行这种投影,然后评估点积,您可以找到一个核函数来简化这项工作,只需在投影空间中为您做点积,而无需实际计算投影然后点积。这使您可以找到能够分离数据集中的类的复杂非线性边界。这是一个非常直观的解释。

  1. 假设您有 5 类数据,就像骰子上的 5 一样。
  2. 要将中间簇与其余簇分开,您需要对所有数据点进行非线性变换。
  3. 由于中间的集群位于我们的“内核”中间,其他集群将移动到另一个方向,因此可以进行线性分离。