客观的
阐明如何选择内核参考点(地标)来识别非线性边界。
背景
通过Coursera ML - Support Vector Machine的 SVM并尝试了解如何选择地标来测量输入高斯内核的距离。
它说“将地标放在与所有训练示例完全相同的位置”。
问题
不清楚为什么“所有训练数据的位置完全相同”。
- 为什么要使用所有数据?
特征数量 M 和数据数量 N 不同,我假设 M << N。那么我们应该选择 M 个数据来使用地标吗? - 为什么不考虑将用作地标的数据分类为正面还是负面?
我相信我们想区分正数据(更高的高斯概率),那么为什么要使用负数据以及地标呢?
在带有多项式内核可视化示例的 YouTube SVM 中(虽然它不使用高斯),地标应该是那些代表红点的地标?