为什么 beta 回归不能处理响应变量中的 0 和 1?

机器算法验证 回归 广义线性模型 贝塔分布 零通胀 贝塔回归
2022-02-12 07:06:58

Beta 回归(即具有 Beta 分布的 GLM,通常是 logit 链接函数)通常被推荐用于处理取值在 0 和 1 之间的响应(也称为因变量),例如分数、比率或概率:结果的回归(比率或分数)在 0 和 1 之间

但是,总是声称一旦响应变量至少一次等于 0 或 1,就不能使用 beta 回归。如果是这样,则需要使用零/一膨胀的 beta 模型,或者对响应进行一些转换等:包括 1 和 0 的比例数据的 Beta 回归

我的问题是:beta 分布的哪个属性阻止 beta 回归处理精确的 0 和 1,为什么?

我猜是这样01不支持 beta 分发。但对于所有形状参数α>1β>1, 0 和 1支持 beta 分布,只有较小的形状参数,分布在一侧或两侧趋于无穷大。也许样本数据是这样的αβ提供最佳拟合结果都高于1.

这是否意味着在某些情况下,即使使用零/一,实际上也可以使用 beta 回归?

当然,即使 0 和 1 在 beta 分布的支持下,恰好观测到 0 或 1 的概率也为零。但是观察任何其他给定的可数集的概率也是如此,所以这不是问题,不是吗?(参见@Glen_b 的评论)。

贝塔分布

在 beta 回归的背景下,beta 分布的参数化方式不同,但具有ϕ=α+β>2它仍然应该在[0,1]对全部μ.

在此处输入图像描述

2个回答

因为对数似然同时包含log(x)log(1x), 当x=0或者x=1. 请参阅 Smithson & Verkuilen 的方程式 (4),“更好的柠檬榨汁机?具有 Beta 分布因变量的最大似然回归”(直接链接到PDF)。

除了原因在实践中来自于存在的事实之外log(x)log(1x),我将尝试通过描述发生这种情况的根本原因来补充问题的答案。

事实上,beta 分布“通常用于描述概率值的分布”(维基百科)。它是可能趋势的分布p的二项分布,知道观察N随机变量的独立二进制绘制。

因此,在我对 beta 回归的理解中,0 和 1 将直观地对应(无限)确定的结果。