我的数据高度重叠,但当我应用逻辑回归时,它给出了令人印象深刻的 79% 准确率。为什么?
数据挖掘
可视化
逻辑回归
数据科学模型
准确性
2021-09-16 22:33:56
2个回答
决策树、KNN 和随机森林(适用于重叠数据的方法)
这种说法是错误的。当决策面(分离面)具有高度非线性时,所有这些方法都很好。它们充当非参数局部近似 - 所有参数实际上不是决策函数的参数,而是模型的元参数。当决策分离器是线性的时,预计逻辑回归会表现得更好。
要查看您的数据是否线性可分,仅查看成对散点图是不够的。想象一下点云,一个嵌套在另一个里面。如果它们是圆形的,那么无论您如何将它们投影到任何成对的轴上,它们看起来都会重叠。
您的数据是多维的,任何二维投影都可能重叠,同时在原始维度上仍然存在一个超平面,可以很好地分离两个类
例如,假设您有来自 2d 中 2 个标签的 3 个数据点,它们是线性可分的 X:(0,-1) O:(1,2) X:(4,3)
X
O
X
在 x 轴上,它们看起来像。XO X 在 y 轴上它们看起来像。XO X 它们在任何轴上都不是一维可分的
然而,在 2d 中有一条线将它们分开(y=x)
越高越容易发生(在维度空间 xD 中)
其它你可能感兴趣的问题