线性回归和逻辑回归有什么区别?
你什么时候使用每个?
线性回归和逻辑回归有什么区别?
你什么时候使用每个?
线性回归使用一般线性方程其中是连续因变量,自变量通常是连续的(但也可以是二元的,例如当线性模型用于 t-测试)或其他离散域。是模型未解释的方差术语,通常仅称为“误差”。由表示的各个依赖值可以通过稍微修改方程来求解:
逻辑回归是另一种使用相同基本公式的广义线性模型 (GLM) 程序,但它不是连续,而是回归分类结果的概率。以最简单的形式,这意味着我们只考虑一个结果变量和该变量的两种状态——0 或 1。
的概率方程如下所示:
您的自变量可以是连续的或二元的。回归系数可以取幂,以得到每次的几率变化,即和。 称为优势比。在英语中,您可以说的几率增加了每单位的变化。
示例:如果您想了解体重指数如何预测血液胆固醇(连续测量),您将使用我的答案顶部所述的线性回归。如果您想了解 BMI 如何预测患糖尿病的几率(二元诊断),您可以使用逻辑回归。
线性回归用于建立因变量和自变量之间的关系,这有助于在自变量发生变化时估计结果因变量。例如:
使用线性回归,发现 Rain (R) 和 Umbrella Sales (U) 之间的关系为 - U = 2R + 5000
这个等式表示,每下 1 毫米的雨,就需要 5002 把雨伞。因此,使用简单回归,您可以估计变量的值。
另一方面,逻辑回归用于确定事件的概率。并且这个事件是以二进制格式捕获的,即 0 或 1。
示例 - 我想确定客户是否会购买我的产品。为此,我将对(相关)数据运行逻辑回归,我的因变量将是一个二元变量(1=是;0=否)。
就图形表示而言,一旦将值绘制在图形上,线性回归就会给出一条线性线作为输出。然而,逻辑回归给出了一条 S 形线
来自 Mohit Khurana 的参考资料。
DocBuckets 和 Pardis 已经解决了这些差异,但我想添加一种方法来比较它们未提及的性能。
线性回归通常通过最小化模型对数据的最小二乘误差来解决,因此大的误差会被二次惩罚。逻辑回归正好相反。使用逻辑损失函数会导致较大的错误被惩罚为渐近常数。
考虑对分类 {0,1} 结果进行线性回归,以了解为什么这是一个问题。如果您的模型在真值为 1 时预测结果为 38,那么您什么也没有丢失。线性回归会尝试减少 38,逻辑不会(尽可能多)。