我的数据高度重叠,但当我应用逻辑回归时,它给出了令人印象深刻的 79% 准确率。为什么?

数据挖掘 可视化 逻辑回归 数据科学模型 准确性
2021-09-16 22:33:56

逻辑回归应该只适用于线性可分的数据。正如我们在配对图中看到的那样,数据点严重重叠。逻辑回归模型实际上显示出比决策树、KNN 和随机森林(适用于重叠数据的方法)更好的准确性。即使是我的逻辑回归模型的交叉验证分数也更高。

配对图

2个回答

决策树、KNN 和随机森林(适用于重叠数据的方法)

这种说法是错误的。当决策面(分离面)具有高度非线性时,所有这些方法都很好。它们充当非参数局部近似 - 所有参数实际上不是决策函数的参数,而是模型的元参数。当决策分离器是线性的时,预计逻辑回归会表现得更好。

要查看您的数据是否线性可分,仅查看成对散点图是不够的。想象一下点云,一个嵌套在另一个里面。如果它们是圆形的,那么无论您如何将它们投影到任何成对的轴上,它们看起来都会重叠。

您的数据是多维的,任何二维投影都可能重叠,同时在原始维度上仍然存在一个超平面,可以很好地分离两个类

例如,假设您有来自 2d 中 2 个标签的 3 个数据点,它们是线性可分的 X:(0,-1) O:(1,2) X:(4,3)

           X
     O

   X

在 x 轴上,它们看起来像。XO X 在 y 轴上它们看起来像。XO X 它们在任何轴上都不是一维可分的

然而,在 2d 中有一条线将它们分开(y=x)

越高越容易发生(在维度空间 xD 中)