数据挖掘 - 在 SVM 算法中，为什么向量 w 与分离超平面正交？ - 吾爱随笔录

在 SVM 算法中，为什么向量 w 与分离超平面正交？

数据挖掘机器学习支持向量机

2021-10-03 00:00:41

我是机器学习的初学者。在 SVM 中，分离超平面定义为 $y = w^T x + b$ . 为什么我们说矢量 $w$ 正交于分离超平面？

4个回答

在几何上，向量 w 的方向正交于由定义的线 $w^{T} x = b$ . 这可以理解为：

先拍 $b = 0$ . 现在很清楚所有向量， $x$ , 内积消失 $w$ 满足这个方程，即所有与 w 正交的向量都满足这个方程。

现在将超平面从原点平移到向量 a 上。平面方程现在变为： $(x − a)^{T} w = 0$ ，即我们发现对于偏移量 $b = a^{T} w$ ，这是向量的投影 $a$ 到向量上 $w$ .

在不失一般性的情况下，我们可以选择垂直于平面，在这种情况下，长度 $\vert\vert a \vert\vert = \vert b \vert /\vert\vert w\vert\vert$ 它表示原点和超平面之间的最短正交距离。

因此向量 $w$ 被称为与分离超平面正交。

让决策边界定义为 $w^Tx + b = 0$ . 考虑要点 $x_a$ 和 $x_b$ ，位于决策边界上。这给了我们两个等式：

w^{T} x_{a} + b = 0 w^{T} x_{b} + b = 0

$\begin{equation} w^Tx_a + b = 0 \\ w^Tx_b + b = 0 \end{equation}$

减去这两个方程给我们 $w^T.(x_a - x_b) = 0$ . 请注意，向量 $x_a - x_b$ 位于决策边界上，它是从 $x_b$ 到 $x_a$ . 由于点积 $w^T.(x_a - x_b)$ 为零， $w^T$ 必须正交于 $x_a - x_b$ ，然后到决策边界。

之所以 $w$ 是超平面的法线是因为我们将它定义为：

假设我们在 3d 空间中有一个（超）平面。让 $P_0$ 成为这个平面上的一个点，即 $P_0 = x_0, y_0, z_0$ . 因此来自原点的向量 $(0,0,0)$ 到这点只是 $<x_0,y_0,z_0>$ . 假设我们有一个任意点 $P (x,y,z)$ 在飞机上。向量连接 $P$ 和 $P_0$ 然后由下式给出：

\vec{P} - \vec{P_{0}} =< x - x_{0}, y - y_{0}, z - z_{0} >

$\vec{P} - \vec{P_0} = <x-x_0, y-y_0, z-z_0>$ 请注意，此向量位于平面内。

现在让 $\hat{n}$ 是平面的法线（正交）向量。所以：

\hat{n} ∙ (\vec{P} - \vec{P_{0}}) = 0

$\hat{n} \bullet (\vec{P}-\vec{P_0}) = 0$ 所以：

\hat{n} ∙ \vec{P} - \hat{n} ∙ \vec{P_{0}} = 0

$\hat{n} \bullet \vec{P}- \hat{n} \bullet \vec{P_0} = 0$ 注意

- \hat{n} ∙ \vec{P_{0}}

$-\hat{n} \bullet \vec{P_0}$ 只是一个数字，等于

b

$b$ 在我们的例子中，而

\hat{n}

$\hat{n}$ 只是

w

$w$ 和

\vec{P}

$\vec{P}$ 是

x

$x$ . 所以根据定义，

w

$w$ 与超平面正交。

使用与超平面正交的向量的代数定义：

$\forall \ x_1, x_2$ 在分离超平面上，

w^{T} (x_{1} - x_{2}) = (w^{T} x_{1} + b) - (w^{T} x_{2} + b) = 0 - 0 = 0 ◻ .

$w^T(x_1-x_2)=(w^Tx_1 + b)-(w^Tx_2 + b)=0-0=0 \ \small\Box.$

其它你可能感兴趣的问题

上一篇点击频率是否考虑了相关性？下一篇为什么 ReLU 比其他激活函数更好