机器算法验证 - 如何内核化一个简单的感知器？ - 吾爱随笔录

如何内核化一个简单的感知器？

机器算法验证 r 神经网络支持向量机内核技巧感知器

2022-03-25 03:41:12

具有非线性边界的分类问题不能通过简单的感知器来解决。以下 R 代码用于说明目的，并基于Python中的此示例）：

nonlin <- function(x, deriv = F) {
  if (deriv) x*(1-x)
  else 1/(1+exp(-x))
}

X <- matrix(c(-3,1,
              -2,1,
              -1,1,
               0,1,
               1,1,
               2,1,
               3,1), ncol=2, byrow=T)

y <- c(0,0,1,1,1,0,0)

syn0 <- runif(2,-1,1)

for (iter in 1:100000) {
  l1 <- nonlin(X %*% syn0)
  l1_error <- y - l1
  l1_delta <- l1_error * nonlin(l1,T)
  syn0 <- syn0 + t(X) %*% l1_delta
}

print("Output After Training:")
## [1] "Output After Training:"
round(l1,3)
##       [,1]
## [1,] 0.488
## [2,] 0.468
## [3,] 0.449
## [4,] 0.429
## [5,] 0.410
## [6,] 0.391
## [7,] 0.373

现在内核的想法和所谓的内核技巧是将输入空间投影到更高维空间中，如下所示（图片来源）：

我的问题
如何利用内核技巧（例如，使用简单的二次内核）以获得能够解决给定分类问题的内核感知器？请注意：这主要是一个概念性问题，但是如果您还可以进行必要的代码修改，那就太好了

到目前为止
，我尝试了以下方法，但我认为这不是真正的交易，因为对于更复杂的问题，它在计算上变得过于昂贵（“内核技巧”背后的“技巧”不仅仅是一个内核本身，但您不必计算所有实例的投影）：

X <- matrix(c(-3,9,1,
              -2,4,1,
              -1,1,1,
               0,0,1,
               1,1,1,
               2,4,1,
               3,9,1), ncol=3, byrow=T)

y <- c(0,0,1,1,1,0,0)

syn0 <- runif(3,-1,1)

完全披露
我一周前在SO上发布了这个问题，但没有引起太多关注。我怀疑这里是一个更好的地方，因为它更像是一个概念问题而不是编程问题。

1个回答

我们可以通过采用标准感知器并将内积替换为等效的（由于“内核技巧”）形式 K(X ，X）。这是可行的，因为我们知道内积是一个映射，它与核函数。与常见的高斯径向基函数核 (RBF)一样： $X^\intercal X=\left<X,X\right>$ $<\cdot,\cdot>:\mathbb{R}^p\times\mathbb{R}^p\to\mathbb{R}$ $k:\mathbb{R}^p\times\mathbb{R}^p\to\mathbb{R}$

K (x_{i}, x_{j}) = \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{2 σ^{2}})

$K(x_i,x_j)=\exp\left(-\frac{{\left|\left|x_i-x_j\right|\right|}^2}{2\sigma^2}\right)$

正如内核感知器的维基百科页面中所提到的，我们选择一个大小为的输入子集，并使用它们的线性组合来产生我们的输出， $M$

f (x) = \sum_{i}^{M} α_{i} y_{i} K (x, x_{i})

$f(x) = \sum\limits_i^M \alpha_i y_i K(x,x_i)$

如果您看过支持向量机 ( SVM )，您会注意到相同的对偶。为了选择要使用的大小为的子集，我们对进行优化，它表示样本是否是我们解决方案的支持/基础向量。在的优化中，我们包括原始感知器优化的权重。 $M$ $\alpha_i$ $i$ $\alpha_i$ $\omega_i$

至于您不必计算投影的问题，您是对的，您的输入数据矩阵仍然是二维的。在计算输出时，我们用核函数替换了点积，这就是特征空间中发生“隐式”计算的地方。 $X$

其它你可能感兴趣的问题

上一篇零膨胀泊松或零膨胀负二项式的“偏差”度量？下一篇如何计算这个复杂的掷骰子机制的结果概率？