机器算法验证 - 测试线性可分性 - 吾爱随笔录

机器算法验证机器学习分类

2022-02-08 23:49:06

有没有办法测试高维的两类数据集的线性可分性？我的特征向量有 40 长。

我知道我总是可以运行逻辑回归实验并确定命中率与误报率来得出这两个类是否线性可分的结论，但最好知道是否已经存在一个标准程序来做到这一点。

3个回答

在计算上确定两组点是否线性可分的最有效方法是应用线性规划。GLTK非常适合这个目的，几乎每一种高级语言都为其提供了一个接口——R、Python、Octave、Julia 等。

关于建议使用 SVM 的答案：

使用 SVM 是验证线性可分性的次优解决方案，原因有两个：

SVM 是软边距分类器。这意味着线性核 SVM 可能会适应一个分离平面，即使它实际上可能也不能完美分离。如果您随后检查错误率，它将不为 0，并且您将错误地得出这两个集合不是线性可分的结论。这个问题可以通过选择一个非常高的成本系数 C 来减轻 - 但这本身的计算成本非常高。
SVM 是最大边距分类器。这意味着该算法将尝试找到一个分离平面，该平面将两个类分开，同时尽可能远离两者。同样，这是一个不必要地增加计算工作量的特征，因为它计算的东西与回答线性可分性问题无关。

假设您有一组点 A 和 B：

在此处输入图像描述