机器算法验证 - 连续因变量的逻辑回归 - 吾爱随笔录

连续因变量的逻辑回归

机器算法验证回归物流广义线性模型贝塔回归

2022-04-15 19:48:47

我正在尝试对介于 0 和 1 之间的响应变量进行建模，即变量的权重（不能被认为是二项分布，因为它不涉及成功/失败）。也就是说，响应变量总是必须说谎介于 0 和 1 之间。这是我的选择：

对响应变量进行 logit 变换并拟合线性回归：

$l o g i t (Y) \sim β_{0} + β_{1} X_{1} + \dots$ ${\rm logit}(Y) \sim β_0 + β_1X_1 + \ldots$
具有 logit 链接功能的 GLM

这两种方法有什么区别？在这种情况下，模型的预测准确性比变量的可解释性更重要。

3个回答

您的第一个选项可能会起作用。它假设模型对变换数据的残差是正态分布的。你需要检查一下。如果是真的，你会没事的。

选项 2 取决于您如何设置 GLM。简单地使用 logit 链接函数并不需要您使用任何特定的响应分布。当然，logit 链接最常用于二项分布，但并非必须如此。我假设您正在考虑使用正态分布作为带有 logit 链接的响应。如果是这样，那可能不是一个很好的选择，因为正态分布假设数据是无限的，但你的不是。例如，您可能拥有的正残差只能存在于区间中，而负残差只能存在于 $(1-\hat\mu,\ 0)$ $(0,\ 0-\hat\mu)$ ; 你很可能会有不同偏度的异方差残差。就算不是，也不可能是正常的。我不清楚这将对模型的预测能力产生什么影响，但我就是不会走这条路。

我的猜测是你最好的可能是使用 Beta 回归。Beta 分布非常灵活，通常应该是连续比例的最佳选择。但是请注意，可能有不适合任何 Beta 分布的数据以 0 和 1 为界，因此您需要再次检查它是否合理。

您的想法是使用 logit（我称其为以表明在我将解释的内容中并不重要）以落在 0 和 1 之间。您的这个想法与逻辑回归并不特别相关。它类似于使用日志链接功能来处理正。 $f$ $f$ $Y$

所以模型 1 和模型 2 的区别就像你使用日志一样。第一个是变换线性回归，第二个是 GLM。关键区别在于：

转换： $E(f(Y)|X)=\beta X$
GLM : $f(E(Y|X))=\beta X$

什么是最好的？

这取决于你想要什么。此处解释了转换线性回归的问题之一（带日志）：http ://davegiles.blogspot.fr/2013/08/forecasting-from-log-linear-regressions.html 。如果这种均值偏差对您来说是一个真正的问题，那么 GLM 可以解决这个问题。

否则，转换后的线性回归会更自然（见gung的回答）。

您描述的两个模型之间的区别在于，第一个假设 DV 是一个在 0 和 1 之间变化的连续变量，而第二个（通常称为“逻辑回归”）假设 DV 是一个离散变量，可以只取值 0 和 1。所以第二个不适合你的情况。

其它你可能感兴趣的问题

上一篇“报告没有协变量的分析统计结果” 下一篇D-分离和条件独立是否等效？