在支持向量机中,我知道在数据集中的每个点计算基函数在计算上会让人望而却步。然而,由于所谓的内核技巧,有可能找到这个最优解。
这个问题的其他答案使用高级数学和统计术语来正确回答这个问题(我假设),导致一般数据科学观众无法理解它。有人可以发布一个“大图”描述(即,不一定全面或技术上完整)说明内核技巧是什么以及它是如何工作的?
在支持向量机中,我知道在数据集中的每个点计算基函数在计算上会让人望而却步。然而,由于所谓的内核技巧,有可能找到这个最优解。
这个问题的其他答案使用高级数学和统计术语来正确回答这个问题(我假设),导致一般数据科学观众无法理解它。有人可以发布一个“大图”描述(即,不一定全面或技术上完整)说明内核技巧是什么以及它是如何工作的?
内核技巧基于一些概念:您有一个数据集,例如两类 2D 数据,表示在笛卡尔平面上。它不是线性可分的,例如,SVM 无法找到分隔这两个类的线。现在,您可以将这些数据投影到更高维度的空间中,例如 3D,在那里它可以被平面线性分割。
现在,ML 中的一个基本概念是点积。您经常使用一些权重 w(模型的参数)对数据样本的特征进行点积。无需在 3D 中明确地对数据进行这种投影,然后评估点积,您可以找到一个核函数来简化这项工作,只需在投影空间中为您做点积,而无需实际计算投影然后点积。这使您可以找到能够分离数据集中的类的复杂非线性边界。这是一个非常直观的解释。