机器算法验证 - 多类感知器如何工作？ - 吾爱随笔录

多类感知器如何工作？

机器算法验证机器学习分类线性模型多级

2022-02-04 13:38:54

我没有任何数学背景，但我了解简单的感知器是如何工作的，并且我认为我掌握了超平面的概念（我在几何上将它想象为 3D 空间中的一个平面，它分隔两个点云，就像一条线分隔二维空间中的两个点云）。

但我不明白一个平面或一条线如何分别在 3D 空间或 2D 空间中分离三个不同的点云——这在几何上是不可能的，是吗？

我试图理解维基百科文章中的相应部分，但在“这里，输入 x 和输出 y 来自任意集合”这句话上已经惨遭失败。有人可以向我解释多类感知器以及它如何与超平面的概念相结合，或者可能给我一个不那么数学的解释吗？

2个回答

假设我们有数据 $(x_1, y_1), \dots, (x_k,y_k)$ 在哪里 $x_i \in \mathbb{R}^n$ 是输入向量和 $y_i \in \{\text{red, blue, green} \}$ 是分类。

我们知道如何为二元结果构建分类器，所以我们做了三遍：将结果组合在一起， $\{\text{red, blue or green} \}$ , $\{\text{blue, red or green} \}$ 和 $\{\text{green, blue or red} \}$ .

每个模型都采用函数的形式 $f: \mathbb{R}^n \to \mathbb{R}$ ，给他们打电话 $f_R, f_B, f_G$ 分别。这需要一个输入向量到与每个模型相关联的超平面的有符号距离，其中正距离对应于蓝色的预测，如果 $f_B$ , 红色如果 $f_R$ 如果是绿色 $f_G$ . 基本上比较积极 $f_G(x)$ 是，模型越认为 $x$ 是绿色的，反之亦然。我们不需要输出是概率，我们只需要能够衡量模型的置信度。

给定一个输入 $x$ , 我们根据 $\text{argmax}_{c} \ f_c(x)$ ，因此，如果 $f_G(x)$ 是最大的 $\{f_G(x), f_B(x), f_R(x) \}$ 我们会预测绿色 $x$ .

这种策略称为“one vs all”，您可以在此处阅读。

我根本无法理解那篇 Wiki 文章。这是解释它的另一种方法。

具有一个逻辑输出节点的感知器是 2 个类别的分类网络。它输出 $p$ , 属于其中一类的概率, 属于另一类的概率 $1 - p$ .

具有两个输出节点的感知器是 3 个类别的分类网络。两个节点各自输出属于一个类的概率 $p_i$ ，属于第三类的概率为 $1 - \sum_{i=(1,2)} p_i$ .

等等; 一个感知器 $m$ 输出节点是一个分类器 $m + 1$ 类。确实，如果没有隐藏层，这样的感知器与多项逻辑回归模型基本相同，就像简单的感知器与逻辑回归一样。

其它你可能感兴趣的问题

上一篇随机森林部分依赖图中y轴的含义下一篇在线学习中的正则化和特征扩展？