数据挖掘 - 内核技巧解释 - 吾爱随笔录

内核技巧解释

数据挖掘支持向量机效率

2021-09-27 06:37:26

在支持向量机中，我知道在数据集中的每个点计算基函数在计算上会让人望而却步。然而，由于所谓的内核技巧，有可能找到这个最优解。

这个问题的其他答案使用高级数学和统计术语来正确回答这个问题（我假设），导致一般数据科学观众无法理解它。有人可以发布一个“大图”描述（即，不一定全面或技术上完整）说明内核技巧是什么以及它是如何工作的？

2个回答

内核技巧基于一些概念：您有一个数据集，例如两类 2D 数据，表示在笛卡尔平面上。它不是线性可分的，例如，SVM 无法找到分隔这两个类的线。现在，您可以将这些数据投影到更高维度的空间中，例如 3D，在那里它可以被平面线性分割。

现在，ML 中的一个基本概念是点积。您经常使用一些权重 w（模型的参数）对数据样本的特征进行点积。无需在 3D 中明确地对数据进行这种投影，然后评估点积，您可以找到一个核函数来简化这项工作，只需在投影空间中为您做点积，而无需实际计算投影然后点积。这使您可以找到能够分离数据集中的类的复杂非线性边界。这是一个非常直观的解释。

假设您有 5 类数据，就像骰子上的 5 一样。
要将中间簇与其余簇分开，您需要对所有数据点进行非线性变换。
由于中间的集群位于我们的“内核”中间，其他集群将移动到另一个方向，因此可以进行线性分离。

其它你可能感兴趣的问题

上一篇为什么会有一个22在均方误差函数的分母上？下一篇pytorch 中的 model.cuda()