当因变量在 0 和 1 之间时,合适的回归模型?

机器算法验证 回归 部分 罗吉特
2022-03-24 12:42:58

我正在执行回归,其中我的因变量是一组Simpson Diversity Index的值。该索引值受(其中是类数)的约束,尽管我的值都没有接近我知道 OLS 回归不适合带有“有界”因变量的回归,我对适当方法的研究为我指出了几个方向,包括 logit 变换和 beta 回归。Beta 回归超出了我的想象,所以我正在考虑 logit 转换,但仍在寻找一些关于解释结果系数的建议,以及这种方法是否真的足够。1/k1k1

此外,还有一些其他问题:我是否只是转换因变量而不理会自变量?我要转换两者吗?(顺便说一下,我的因变量包括百分比、整数和虚拟变量。)

通过转换,我读到 OLS 将是合适的,但我也看到了对 GLM 的建议。

2个回答

您是否有任何正好为 0 或 1 的响应值?(这些会导致 logit 变换出现问题)

您是否尝试过绘制数据?你使用了哪些探索技术?该领域的其他研究人员做了什么?

您可以尝试模拟一些适合 logit 变换或 beta 回归模型(或您考虑尝试的任何其他模型)的数据,并查看它与您的数据相比如何,以便更好地了解哪种模型可能更合适。

有了你给我们的,我们只能提出建议,你需要根据你对数据的理解、数据背后的科学以及你想问的问题来决定什么是最有意义的。您可能还需要咨询该领域的专家和/或专业统计学家。选择不做 Beta 回归,因为它超出了你的能力,就像让你的医生说你可能需要脑部手术,但他会取出你的阑尾,因为大脑超出了他的经验,但他擅长阑尾。

你知道k但你使用了因变量1/k. 不要划分,但使用的值k作为因变量。正如你所说k是类的数量,因此您应该看到带有分类因变量的回归。作为参考,你应该看看 这里

我认为你应该避免1/k如果您使用任何其他回归或方法。因为当你有更多的类时,结果接近于零,而小类的结果接近于 1,这会对自变量产生误导性的结果。