比例数据的 Logit 变换或 beta 回归

机器算法验证 回归 罗吉特 贝塔回归
2022-03-18 18:09:31

我有兴趣了解(1)对logit转换变量的线性回归与0和1之间的值和(2)beta回归之间的解释差异,其中0和1之间的值未转换。

我正在阅读以下有关使用 beta 回归的论文:

https://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf

具体来说,如果我采用我拥有的百分比结果变量并且(1)使用 logit 转换并使用正常模型或(2)使用 beta 回归,我试图弄清楚我对结果的解释将如何不同。这就是作者对此事的看法:

“应该如何执行回归分析,其中因变量(或响应变量)y 假设标准单位区间 (0, 1) 中的值?通常的做法是转换数据,以便转换后的响应,假设 y 假设实线中的值,然后应用标准线性回归分析。常用的转换是 logit,y = log(y/(1 - y))。但是,这种方法有缺点。首先,回归参数可以用 y 的均值来解释,而不是 y 的均值(给定 Jensen 不等式)。”

有人可以在这里给我对作者观点的技术性较低的解释吗?我不太确定 Jensen 的不等式是什么或为什么它适用于此。

这是另一篇提出类似观点的论文:

https://onlinelibrary.wiley.com/doi/pdf/10.1002/sim.6179

他们说:

“[5] 中的逻辑正态模型假设 logit 转换比例响应的正态分布,可以提供一个计算方便的框架,但它存在解释问题,因为响应的期望值不是一个简单的 logit 函数协变量。”

我认为这句话可能是指第一个中确定的问题,但我仍然不太了解如何。

此问题问题已关闭。请参阅第一个响应的评论以获取答案。

1个回答

他们的意思是,一旦您转换了因变量(​​例如,从),回归模型的参数会告诉您自变量如何影响 ,而不是本身。ylogit(y)logit(y)y

假设性别是您的自变量之一,并且您看到男性与女性的系数为 2。

如果您使用 logit 转换,则对此的解释是男性双倍 logit。如果你没有,你可以说它加倍了一个百分比。

编辑: Beta 回归使用 logit 转换假设的数据分布平均值(在这种情况下为 beta 分布),而使用 logit 转换的因变量的线性回归转换数据。

因此,在 beta 回归中,我们有建模,而在使用 logit 转换的因变量的线性回归中,我们有这两个是不一样的。logit(E(y))E(logit(y))