多类感知器如何工作?

机器算法验证 机器学习 分类 线性模型 多级
2022-02-04 13:38:54

我没有任何数学背景,但我了解简单的感知器是如何工作的,并且我认为我掌握了超平面的概念(我在几何上将它想象为 3D 空间中的一个平面,它分隔两个点云,就像一条线分隔二维空间中的两个点云)。

但我不明白一个平面或一条线如何分别在 3D 空间或 2D 空间中分离三个不同的点云——这在几何上是不可能的,是吗?

我试图理解维基百科文章中的相应部分,但在“这里,输入 x 和输出 y 来自任意集合”这句话上已经惨遭失败。有人可以向我解释多类感知器以及它如何与超平面的概念相结合,或者可能给我一个不那么数学的解释吗?

2个回答

假设我们有数据(x1,y1),,(xk,yk)在哪里xiRn是输入向量和yi{red, blue, green}是分类。

我们知道如何为二元结果构建分类器,所以我们做了三遍:将结果组合在一起,{red, blue or green},{blue, red or green}{green, blue or red}.

每个模型都采用函数的形式f:RnR, 给他们打电话fR,fB,fG分别。这需要一个输入向量到与每个模型相关联的超平面的有符号距离,其中正距离对应于蓝色的预测,如果fB, 红色如果fR如果是绿色fG. 基本上比较积极fG(x)是,模型越认为x是绿色的,反之亦然。我们不需要输出是概率,我们只需要能够衡量模型的置信度。

给定一个输入x, 我们根据argmaxc fc(x), 因此,如果fG(x)是最大的{fG(x),fB(x),fR(x)}我们会预测绿色x.

这种策略称为“one vs all”,您可以在此处阅读。

我根本无法理解那篇 Wiki 文章。这是解释它的另一种方法。

具有一个逻辑输出节点的感知器是 2 个类别的分类网络。它输出p, 属于其中一类的概率, 属于另一类的概率1p.

具有两个输出节点的感知器是 3 个类别的分类网络。两个节点各自输出属于一个类的概率pi,属于第三类的概率为1i=(1,2)pi.

等等; 一个感知器m输出节点是一个分类器m+1类。确实,如果没有隐藏层,这样的感知器与多项逻辑回归模型基本相同,就像简单的感知器与逻辑回归一样。