当我应该选择线性或逻辑回归时,我仍然没有明确的概念。
此外,什么时候我可以说线性回归或逻辑回归表现更好?
特别想知道什么时候应该选择线性回归,什么时候选择逻辑回归?
当我应该选择线性或逻辑回归时,我仍然没有明确的概念。
此外,什么时候我可以说线性回归或逻辑回归表现更好?
特别想知道什么时候应该选择线性回归,什么时候选择逻辑回归?
线性回归用于预测连续变量。
逻辑回归用于预测只有有限值的变量。
让我引用一个很好的例子,它可以帮助你区分两者:
例如,如果 X 包含以平方英尺为单位的房屋面积,并且 Y 包含这些房屋的相应售价,您可以使用线性回归来预测售价作为房屋大小的函数。虽然可能的销售价格实际上可能并不存在,但有很多可能的值,因此需要选择线性回归模型。
相反,如果您想根据大小预测一栋房子的售价是否会超过 20 万,您可以使用逻辑回归。可能的输出要么是,房子的售价将超过 20 万美元,要么是不,房子不会。
我的两分钱...
不是100%准确,但可以给你一个粗略的想法......
线性回归对问题进行线性化,其中 , 和 和 是连续变量。
现在想象一下,你想预测一种布尔行为(是/否)基于 价值。例如,根据你的薪水,你快乐与否。
你可以说快乐 = 1 而不快乐 = 0。你可以用所有对(薪水,快乐)(垂直轴上的快乐)制作散点图。
您可以尝试划出一条线将快乐的人和不快乐的人分开,但您很快就会发现效果不佳(中间的值是什么等)。
一个更好的主意是绘制一种 s 曲线,它会尽可能地通过你所拥有的点。
这就是后勤回归的结果。它基本上通过变换 值:这是 Logit 函数。
然后,如果预测的 logit 高于阈值,我们就说我们预测“真”。这个阈值通常对应于 0.5,这是曲线的拐点(某些工具只允许使用 0.5)。这个阈值实际上就是概率。
当我们有多个是/否的可能性时,一种解决方案是对所有可能性进行逻辑回归(例如,如果你有 A、B、C,那将是 A/不是 A、B/不是 B、C/不是 C ) 并采取给你最高概率的可能性。这被称为“一对多”的方法。