考虑逻辑回归的一种方法是作为阈值响应模型。在这些模型中,您有一个二元因变量,它受自变量向量的值的影响。因变量只能取值 0 和 1,因此您无法使用典型的线性回归方程(如对的依赖性进行建模。但我们真的,真的很喜欢线性方程。或者,至少,我愿意。YXYYXYi=Xiβ+ϵi
为了模拟这种情况,我们引入了一个不可观察的潜在变量,我们说越过阈值时 Y 从等于 0 变为等于 1:
begin
正如我所写,阈值为 0。然而,这是一种错觉。通常,该模型包括一个截距(即的一列是1s 的一列)。这允许阈值是任何东西。 Y∗YY∗
Y∗iYiYi=Xiβ+ϵi=0ifY∗i<0=1ifY∗i>0
X
为了激发这个模型,想想用神经毒素杀虫剂杀死虫子。 是杀死多少神经细胞,包括输送给某些虫子的杀虫剂剂量。 为 1,如果它活着,则为 0。也就是说,如果有足够多的神经细胞被杀死(并且超过阈值),那么虫子就会死亡。顺便说一句,这实际上并不是神经毒性农药的工作原理,但假装很有趣。Y∗XYY∗
所以,你得到一个你看不到的线性回归方程和一个你可以看到的二元结果。参数通常通过最大似然估计。如果以对称分布函数分布,则。正如你所说,你可以使用任何你想要的对称分布函数。 βϵFP{Yi=1}=F(Xiβ)
实际上,如果你愿意,你可以使用非对称分布函数,它只是让代数有点难,如。P{Yi=1}=1−F(−Xiβ)
选择的分布函数会影响您的估计结果。的两个最常见的选择是 normal(产生 probit 模型)和logistic(产生 logit 模型)。这两个分布非常相似,以至于它们之间的结果很少有重要差异。由于 logit 对 cdf 和密度函数都有一个非常方便的封闭形式,因此它通常比 probit 更容易使用。ϵF
同样,正如您所说,您可以为选择任何分布函数,您选择的哪个会影响您的结果。F