当 Y 在 0 和 1 之间连续时,回归的哪个链接函数?

机器算法验证 回归 物流 分类数据 最大似然
2022-03-22 06:15:36

当 Y 是分类数据 0 或 1 时,我总是使用逻辑回归。

现在我有了这个因变量,它实际上是一个比率/概率。这意味着它可以是 0 到 1 之间的任何数字。
我真的认为“逻辑”形状非常适合,但我记得在证明 MLE 为何有效时,分类 Y 很重要。

关键是,我对这个 Y 使用 logit 回归是错误的,或者没关系?我应该改用概率吗?
我犯了死罪吗?

2个回答

对这类数据使用“逻辑回归”本身并没有错。您可以将其视为一种经验调整,以允许拟合具有有限支持的响应。它比替代方法更好(对您的响应进行 logit 转换,然后使用普通线性回归),因为结果预测是渐近无偏的,平均预测值等于观察到的平均响应,并且(可能是最重要的)您不必担心关于 Y 等于 0 或 1 的情况。反正弦变换可以处理 Y = 0 或 1,但是根据对数优势比,您的回归结果并不那么容易解释。

需要注意的主要事情是,与任何广义线性模型一样,您隐含地假设E(Y|X)Var(Y|X). 您应该检查这个假设是否成立,例如通过查看残差的诊断图。

在大多数情况下,进行概率回归将给出与逻辑回归非常相似的结果。如果您有理由相信 Y = 0 和 1 之间存在不对称性,另一种方法是使用互补对数对数链接。

链接函数将 Y(给定 X)的期望值转换为无界值。在逻辑回归中,Y 取值 0 或 1,logit 不应用于 Y,而是应用于 Pr(Y=1|X)。(0 和 1 的 logit 都是未定义的。)所以在这种情况下使用 logit 或 probit 是完全合理的。

要考虑的另一件事是剩余方差:是否有特定的转换可以最好地稳定您的案例的方差?对于比例,通常使用反正弦平方根变换,因为它对二项式比例具有方差稳定作用。考虑这里的讨论。