如何选择内核的地标来运行 SVM

机器算法验证 支持向量机 内核技巧
2022-03-12 23:19:35

客观的

阐明如何选择内核参考点(地标)来识别非线性边界。

在此处输入图像描述

背景

通过Coursera ML - Support Vector Machine的 SVM并尝试了解如何选择地标来测量输入高斯内核的距离。

它说“将地标放在与所有训练示例完全相同的位置”。

在此处输入图像描述

在此处输入图像描述

问题

不清楚为什么“所有训练数据的位置完全相同”。

  1. 为什么要使用所有数据?

    特征数量 M 和数据数量 N 不同,我假设 M << N。那么我们应该选择 M 个数据来使用地标吗?
  2. 为什么不考虑将用作地标的数据分类为正面还是负面?

    我相信我们想区分正数据(更高的高斯概率),那么为什么要使用负数据以及地标呢?

    带有多项式内核可视化示例的 YouTube SVM 中(虽然它不使用高斯),地标应该是那些代表红点的地标?
2个回答

M 是数据点的数量,而不是特征的数量。因此,我们获取所有(训练)数据,并且对于每个 (xi,yi),我们得到一个地标。

请注意,在组合最小化项中,每个 fi 与其匹配的 yi 组合,因此最小化考虑了哪些路标应该是正的,哪些应该是负的。

在视频中,每个红点和每个蓝点都应该是一个地标。

显然很晚了,但正如安德鲁的回答所提到的,每个都与相同的标签配对也就是说,如果与对应的标签配对,那么也将与配对。出于这个原因,如果我们只使用对应标签为(即正特征),我们最终会得到一个转换后的数据集,其中每个特征有相应的标签因此,在这个转换后的数据集上训练一个 SVM 将产生一个可以不断预测f(i)x(i)x(i)1f(i)1x(i)1f(i)11, 并且每次都获得的成本,这显然不是很有帮助。0

这就是说我们需要同时选择正面和负面特征作为地标,否则我们最终可能会得到一个如此倾斜的转换数据集,以至于无法在所述转换数据集上训练具有合理测试集性能的 SVM。

希望这可以帮助。