我正在尝试对介于 0 和 1 之间的响应变量进行建模,即变量的权重(不能被认为是二项分布,因为它不涉及成功/失败)。也就是说,响应变量总是必须说谎介于 0 和 1 之间。这是我的选择:
对响应变量进行 logit 变换并拟合线性回归:
具有 logit 链接功能的 GLM
这两种方法有什么区别?在这种情况下,模型的预测准确性比变量的可解释性更重要。
我正在尝试对介于 0 和 1 之间的响应变量进行建模,即变量的权重(不能被认为是二项分布,因为它不涉及成功/失败)。也就是说,响应变量总是必须说谎介于 0 和 1 之间。这是我的选择:
对响应变量进行 logit 变换并拟合线性回归:
具有 logit 链接功能的 GLM
这两种方法有什么区别?在这种情况下,模型的预测准确性比变量的可解释性更重要。
您的第一个选项可能会起作用。它假设模型对变换数据的残差是正态分布的。你需要检查一下。 如果是真的,你会没事的。
选项 2 取决于您如何设置 GLM。简单地使用 logit 链接函数并不需要您使用任何特定的响应分布。当然,logit 链接最常用于二项分布,但并非必须如此。我假设您正在考虑使用正态分布作为带有 logit 链接的响应。如果是这样,那可能不是一个很好的选择,因为正态分布假设数据是无限的,但你的不是。例如,您可能拥有的正残差只能存在于区间中,而负残差只能存在于; 你很可能会有不同偏度的异方差残差。就算不是,也不可能是正常的。我不清楚这将对模型的预测能力产生什么影响,但我就是不会走这条路。
我的猜测是你最好的可能是使用 Beta 回归。Beta 分布非常灵活,通常应该是连续比例的最佳选择。但是请注意,可能有不适合任何 Beta 分布的数据以 0 和 1 为界,因此您需要再次检查它是否合理。
您的想法是使用 logit(我称其为以表明在我将解释的内容中并不重要)以落在 0 和 1 之间。您的这个想法与逻辑回归并不特别相关。它类似于使用日志链接功能来处理正。
所以模型 1 和模型 2 的区别就像你使用日志一样。第一个是变换线性回归,第二个是 GLM。关键区别在于:
什么是最好的?
这取决于你想要什么。此处解释了转换线性回归的问题之一(带日志):http ://davegiles.blogspot.fr/2013/08/forecasting-from-log-linear-regressions.html 。如果这种均值偏差对您来说是一个真正的问题,那么 GLM 可以解决这个问题。
否则,转换后的线性回归会更自然(见gung的回答)。
您描述的两个模型之间的区别在于,第一个假设 DV 是一个在 0 和 1 之间变化的连续变量,而第二个(通常称为“逻辑回归”)假设 DV 是一个离散变量,可以只取值 0 和 1。所以第二个不适合你的情况。