因变量在 0 和 1 之间时的回归

机器算法验证 回归 物流 广义线性模型 部分 scikit-学习
2022-04-06 10:31:32

我正在使用scikit-learn库来执行回归。但是,在我的情况下,我需要将因变量限制在 0 到 1 的范围内。因变量表示计数比例 (某个类别中的计数除以总计数)并且不连续。我可以看到两种方法来实现这一点。

  1. 将因变量转换为完整的实数线并执行正态回归。
  2. 通过选择 n 个类别,每个类别代表范围 (i/n) 到 (i+1/n),将回归问题转换为分类问题。

我的猜测是第一个选项在实践中效果不佳,而第二个看起来像一个丑陋的杂物(可能会起作用)。

什么是在回归(在 Python 中)约束因变量的好方法?


建议使用 Beta 回归对介于 0 和 1 之间的结果(比率或分数)进行回归,但我并不完全理解此选项。任何人都可以为不使用 R 的人详细说明 Beta 回归的技术细节吗?

1个回答

Beta 回归用于连续比例(如具有特定土壤类​​型的土地比例)。

对于计数比例,最常见的模型是二项式回归模型,一种特殊类型的广义线性模型 (GLM)。

其中,逻辑回归是最广泛使用的,尽管还有许多其他链接函数被使用。

估计的拟合被自动约束在界限内。

它不会改变响应;它依赖于拟合一个保持在限制范围内的函数。

[现场有许多问题讨论逻辑回归。一些讨论其他模型 - 例如概率回归和互补对数回归]