在我的项目中,我想创建一个逻辑回归模型来预测二元分类(1 或 0)。
我有 15 个变量,其中 2 个是分类变量,其余的是连续变量和离散变量的混合。
为了拟合逻辑回归模型,有人建议我使用 SVM、感知器或线性规划来检查线性可分性。这与此处提出的关于测试线性可分性的建议相关。
作为机器学习的新手,我了解上述算法的基本概念,但从概念上讲,我很难想象我们如何分离具有如此多维度的数据,在我的例子中是 15 个。
在线资料中的所有示例通常显示两个数值变量(身高、体重)的 2D 图,显示类别之间的明显差距并使其更易于理解,但在现实世界中,数据通常具有更高的维度。我一直被吸引回到 Iris 数据集,并试图通过三个物种拟合一个超平面,以及在两个物种之间这样做是多么困难,如果不是不可能的话,这两个类现在让我无法理解。
当我们有更高阶的维度时如何实现这一点,是否假设当我们超过一定数量的特征时,我们使用内核映射到更高维度的空间以实现这种可分离性?
另外为了测试线性可分性,使用的度量是什么?是支持向量机模型的准确度,即基于混淆矩阵的准确度吗?
任何有助于更好地理解这个主题的帮助将不胜感激。下面也是我的数据集中两个变量的图示例,它显示了这两个变量的重叠程度。