不使用二分因变量时分析逻辑回归

机器算法验证 物流
2022-04-16 20:26:52

我在理解如何将逻辑回归与不是二元或二分法而是在 0 和 1 的比例之间的因变量一起使用时遇到了一些问题。如果你们中的任何人能启发我,那就太好了。到目前为止,我能想到的最多的是,如果我要使用线性回归,那么我得到的值将毫无意义,因为它们会高于 1 或低于 0,但我没有得到,也找不到其他人在做什么正在使用逻辑回归来预测在给定的时间间隔(在本例中为 1 小时)内有多少人正在撤离,以及我是否可以这样做。同样对于我的变量,我使用连续的、二分的和有序的数据。

任何和所有的帮助表示赞赏。

编辑删除了我添加到另一个问题的这个问题的部分。

也只是为了给大家更多的信息。我正在创建一个模型,该模型可以预测撤离到某个地区剩余人口的比例。例如,10% 的人撤离/90% 的人离开等等超过 37 小时。数据是按顺序使用的,其中之前的每个小时都会影响其之后的每个小时的值。在文献中,他们称之为顺序 logit 模型。目前我正在使用 matlabs 广义线性模型函数,该函数使用与 logit 链接的二项分布。

2个回答

在您的情况下,响应变量实际上是二元的,它刚刚被总结为一个比率。每个人要么离开建筑物(1),要么不离开(0)。所以逻辑回归非常合适,您只需将数据放入适当的形式(这将取决于您的软件)。

在 R 中,您通过将比例作为响应并将总体大小(即试验次数)指定为权重来做到这一点。

听起来您对假设检验和模型选择也有一些问题,但最好将它们放在一个单独的问题中,也许在您对逻辑回归问题感到满意之后。

我不是要抱怨,但是您有两个问题似乎密切相关,但它们都不够清楚/没有足够的信息来为您提供非常好的答案。您可能想看看是否可以编辑它们。@PeterEllis 对为什么 p 值可能很高的问题提供了一个很好的答案。我看不出还有什么好说的。他在这里也提供了一个很好的答案,但也许我可以提供帮助。

@PeterEllis 显然是正确的,您的比例来自一些成功和一些失败。如果您知道这些值,则可以直接将它们用作响应变量。但是,如果您不了解它们,就会有问题。你可以大胆猜测一下;这将如何有效取决于您的猜测有多好。如果每个比例的病例数相同,则可以简单地使用逻辑转换直接转换比例,即ln( proportion/(1-proportion) )并使用转换后的数据作为响应变量运行正常的 ols 回归。唯一的问题是您的置信区间/ p 值将不准确,因为您将每个比例计为 1 个数据,而不是构成该比例的数据数量。尽管如此,如果相同数量的案例构成每个比例,那么您的参数估计将是无偏的。此外,这种方法将使您摆脱预测值超出 (0,1) 范围的问题。