逻辑回归背后的直觉

机器算法验证 回归 机器学习 物流
2022-02-07 08:02:29

最近我开始学习机器学习,但是我没有掌握逻辑回归背后的直觉。

以下是我了解的有关逻辑回归的事实。

  1. 作为假设的基础,我们使用sigmoid 函数我确实理解为什么这是一个正确的选择,但是为什么这是我不理解的唯一选择。假设表示适当输出为的概率,因此我们函数的域应该是,这是我在这里发现有用且合适的 sigmoid 函数的唯一属性,但是许多函数都满足此属性。此外,sigmoid 函数具有这种形式的导数,但我没有看到这种特殊形式在逻辑回归中的实用性。1[0,1]f(x)(1f(x))

    问题:sigmoid 函数有什么特别之处,为什么我们不能使用域的任何其他函数?[0,1]

  2. 成本函数由两个参数组成 if如果和上面一样,我明白为什么它是正确的,但是为什么它是唯一的形式?例如,为什么不能是成本函数的好选择吗?Cost(hθ(x),y)=log(hθ(x))y=1,Cost(hθ(x),y)=log(1hθ(x))y=0|hθ(x)y|

    问题:上述形式的成本函数有什么特别之处;为什么我们不能使用另一种形式?

如果您能分享您对逻辑回归的理解,我将不胜感激。

3个回答

逻辑回归模型是使用自然参数(对数优势比)的最大似然来对比预测变量中每单位差异的结果风险的相对变化。当然,这是假设结果的二项式概率模型。这意味着逻辑回归的一致性和鲁棒性属性直接从最大似然延伸:鲁棒性到随机数据缺失、根 n 一致性以及估计方程解的存在性和唯一性。这是假设解决方案不在参数空间的边界上(其中对数优势比为)。因为逻辑回归是最大似然,所以损失函数与似然相关,因为它们是等价的优化问题。±

对于拟似然或估计方程(半参数推断),存在性、唯一性属性仍然成立,但平均模型成立的假设不相关,并且无论模型错误指定如何,推断和标准误差都是一致的。所以在这种情况下,sigmoid 是否是正确的函数不是问题,而是给我们一个我们可以相信的趋势,并由具有可扩展解释的参数参数化的函数。

然而,sigmoid 并不是唯一的这种二元建模函数。最常见的对比概率函数具有相似的属性。它不估计对数优势比,但在功能上它们看起来非常相似,并且往往对完全相同的事物给出非常相似的近似值。也不需要在平均模型函数中使用边界属性。简单地使用具有二项式方差函数的对数曲线给出相对风险回归,与二项式方差的恒等链接给出附加风险模型。这一切都是由用户决定的。遗憾的是,逻辑回归的流行是它如此常用的原因。但是,我有我的理由(我所说的那些)为什么我认为它在大多数二元结果建模环境中使用是合理的。

在推理世界中,对于罕见的结果,优势比可以粗略地解释为“相对风险”,即“将 X+1 与 X 比较的结果风险的相对变化百分比”。情况并非总是如此,一般来说,优势比不能也不应该被解释为这样。然而,这些参数具有解释性并且可以很容易地传达给其他研究人员,这是很重要的一点,遗憾的是机器学习者的教学材料中缺少一些东西。

逻辑回归模型还为更复杂的方法(例如分层建模)以及混合建模和条件似然方法提供了概念基础,这些方法对于呈指数增长的有害参数数量是一致且稳健的。GLMM 和条件逻辑回归是高维统计中非常重要的概念。

考虑逻辑回归的一种方法是作为阈值响应模型。在这些模型中,您有一个二元因变量,它受自变量向量的值的影响。因变量只能取值 0 和 1,因此您无法使用典型的线性回归方程(如的依赖性进行建模。但我们真的,真的很喜欢线性方程。或者,至少,我愿意。YXYYXYi=Xiβ+ϵi

为了模拟这种情况,我们引入了一个不可观察的潜在变量,我们说越过阈值时 Y 从等于 0 变为等于 1: begin 正如我所写,阈值为 0。然而,这是一种错觉。通常,该模型包括一个截距(即的一列是1s 的一列)。这允许阈值是任何东西。 YYY

Yi=Xiβ+ϵiYi=0ifYi<0Yi=1ifYi>0
X

为了激发这个模型,想想用神经毒素杀虫剂杀死虫子。 是杀死多少神经细胞,包括输送给某些虫子的杀虫剂剂量。 为 1,如果它活着,则为 0。也就是说,如果有足够多的神经细胞被杀死(并且超过阈值),那么虫子就会死亡。顺便说一句,这实际上并不是神经毒性农药的工作原理,但假装很有趣。YXYY

所以,你得到一个你看不到的线性回归方程和一个你可以看到的二元结果。参数通常通过最大似然估计。如果以对称分布函数分布,则正如你所说,你可以使用任何你想要的对称分布函数。 βϵFP{Yi=1}=F(Xiβ)

实际上,如果你愿意,你可以使用非对称分布函数,它只是让代数有点难,如P{Yi=1}=1F(Xiβ)

选择的分布函数会影响您的估计结果。的两个最常见的选择是 normal(产生 probit 模型)和logistic(产生 logit 模型)。这两个分布非常相似,以至于它们之间的结果很少有重要差异。由于 logit 对 cdf 和密度函数都有一个非常方便的封闭形式,因此它通常比 probit 更容易使用。ϵF

同样,正如您所说,您可以为选择任何分布函数,您选择的哪个会影响您的结果。F

逻辑回归最初不是由机器学习社区开发的,而是由统计社区开发的。背后有很多概率论。您可以搜索以下术语以获取更多信息:赔率对数赔率广义线性模型二项式链接函数

但是对于机器学习来说,目标略有不同,我们只想获得更高的准确率(最小化损失函数),而不是谈论这些假设以及数据是如何生成的。

你问的问题非常好。因此,对于机器学习,通常使用其他“sigmoid 函数”和损失函数来进行分类。

有关详细信息,请参阅此问题

在分类中选择不同的损失函数来近似0-1损失有什么影响