测验:通过决策边界告诉分类器

机器算法验证 机器学习 自习 分类 神经网络 支持向量机
2022-02-06 12:35:04

下面给出了 6 个决策边界。决策边界是紫线。点和十字是两个不同的数据集。我们必须决定哪一个是:

  • 线性支持向量机
  • 核化 SVM(2 阶多项式核)
  • 感知器
  • 逻辑回归
  • 神经网络(1 个隐藏层,10 个整流线性单元)
  • 神经网络(1 个隐藏层,10 个 tanh 单元)

我想有解决方案。但更重要的是,了解差异。例如,我会说 c) 是一个线性 SVM。决策边界是线性的。但我们也可以均匀化线性 SVM 决策边界的坐标。d) 核化 SVM,因为它是多项式阶 2。 f) 由于“粗糙”边缘而校正的神经网络。也许a)逻辑回归:它也是线性分类器,但基于概率。

决策边界

1个回答

真的很喜欢这个问题!

首先想到的是线性分类器和非线性分类器之间的划分。三个分类器是线性的(线性 svm、感知器和逻辑回归),三个图显示了线性决策边界(ABC)。所以让我们从这些开始。

线性

最显着的线性图是图B,因为它有一条带斜率的线。这对于逻辑回归和 svm 来说很奇怪,因为它们可以通过成为一条平线(即远离(所有)点)来更多地改善其损失函数。因此,图B是感知器。由于感知器输出为 0 或 1,因此将一类与另一类分开的所有解决方案都同样好。这就是为什么它没有进一步改善的原因。

plot _A) 和C之间的区别更加微妙。图A中的决策边界略低一个支持向量机作为固定数量的支持向量,而逻辑回归的损失函数由所有点确定。由于红十字比蓝点多,逻辑回归比蓝点更能避免红十字。线性 SVM 只是尽量远离红色支持向量和远离蓝色支持向量。这就是为什么图A是逻辑回归的决策边界,而图C是使用线性 SVM 制作的。

非线性

让我们继续非线性图和分类器。我同意您的观察,即情节F可能是 ReLu NN,因为它具有最清晰的边界。一个 ReLu 单元,因为如果激活超过 0 就会立即激活,这会导致输出单元遵循不同的线性线。如果您看起来非常非常好,您可以在线路中发现大约 8 个方向变化,因此可能 2 个单位对最终结果几乎没有影响。所以情节F是 ReLu NN。

关于最后两个我不太确定。tanh NN 和多项式核化 SVM 都可以有多个边界。地块D显然被分类得更糟。tanh NN 可以通过不同地弯曲曲线并在外部区域放置更多蓝色或红色点来改善这种情况。不过,这个剧情有点奇怪。我猜左上部分为红色,右下部分为蓝色。但是中间部分是怎么分类的呢?它应该是红色或蓝色,但不应该绘制决策边界之一。因此,唯一可能的选择是将外部部分分类为一种颜色,将内部部分分类为另一种颜色。这很奇怪,而且非常糟糕。所以我不确定这个。

让我们看一下情节E它有曲线和直线。对于 2 度核化 SVM,很难(几乎不可能)有一个直线决策边界,因为平方距离逐渐有利于 2 个类中的 1 个。tanh 激活函数 hover 可能会饱和,因此隐藏状态由 0 和 1 组成。在这种情况下,只有 1 个单元然后将其状态更改为 0.5,您可以获得线性决策边界。所以我会说情节E是一个 tanh NN,因此情节D是一个核化 SVM。不过,这对可怜的旧 SVM 来说太糟糕了。

结论

A - 逻辑回归
B - 感知器
C - 线性 SVM
D - 核化 SVM(2 阶多项式核)
E - 神经网络(1 个隐藏层,具有 10 个 tanh 单元)
F - 神经网络(1 个隐藏层,具有 10 个整流线性单元)