何时使用线性回归或逻辑回归?

数据挖掘 逻辑回归 线性回归 模型选择
2021-10-10 11:25:57

当我应该选择线性或逻辑回归时,我仍然没有明确的概念。
此外,什么时候我可以说线性回归或逻辑回归表现更好?

特别想知道什么时候应该选择线性回归,什么时候选择逻辑回归?

2个回答

线性回归用于预测连续变量。

逻辑回归用于预测只有有限值的变量。

让我引用一个很好的例子,它可以帮助你区分两者:

例如,如果 X 包含以平方英尺为单位的房屋面积,并且 Y 包含这些房屋的相应售价,您可以使用线性回归来预测售价作为房屋大小的函数。虽然可能的销售价格实际上可能并不存在,但有很多可能的值,因此需要选择线性回归模型。

相反,如果您想根据大小预测一栋房子的售价是否会超过 20 万,您可以使用逻辑回归。可能的输出要么是,房子的售价将超过 20 万美元,要么是不,房子不会。

我的两分钱...

不是100%准确,但可以给你一个粗略的想法......

线性回归对问题进行线性化,其中 y=f(x), 和 xy 是连续变量。

现在想象一下,你想预测一种布尔行为(是/否)基于 x价值。例如,根据你的薪水,你快乐与否。

你可以说快乐 = 1 而不快乐 = 0。你可以用所有对(薪水,快乐)(垂直轴上的快乐)制作散点图。

您可以尝试划出一条线将快乐的人和不快乐的人分开,但您很快就会发现效果不佳(中间的值是什么等)。

一个更好的主意是绘制一种 s 曲线,它会尽可能地通过你所拥有的点。

这就是后勤回归的结果。它基本上通过变换y 值:这是 Logit 函数。

然后,如果预测的 logit 高于阈值,我们就说我们预测“真”。这个阈值通常对应于 0.5,这是曲线的拐点(某些工具只允许使用 0.5)。这个阈值实际上就是概率。

当我们有多个是/否的可能性时,一种解决方案是对所有可能性进行逻辑回归(例如,如果你有 A、B、C,那将是 A/不是 A、B/不是 B、C/不是 C ) 并采取给你最高概率的可能性。这被称为“一对多”的方法。