具有 logit 链接和高斯族的 GLM,用于预测 0 到 1 之间的连续 DV

机器算法验证 物流 广义线性模型 二进制数据 罗吉特 连续数据
2022-03-07 10:02:30

您可以使用具有连续 DV(0 到 1 之间)的 logit 链接运行 GLM 吗?一般来说,建议使用带有 logit 链接的二项式系列,但我猜这是因为该模型假设一个二元 DV。如果我们有一个连续的 DV,我们会想要使用高斯族而不是二项式吗?

如果这个问题没有多大意义,我深表歉意:我只有非常基本的统计学知识,我只是想重新校准几年前一位同事指定的模型。

3个回答

您似乎想使用分数 logit,即比例的准似然模型。这里的关键是它是一个准似然模型,所以这个族指的是方差函数,没有别的。在准可能性中,方差是一个令人讨厌的参数,如果您的数据集足够大,则不必在模型中正确指定该参数。因此,对于分数 logit 模型,我会坚持使用通常的族,并使用二项式族。

如果您的数据确实是连续的比例(我看到的常见示例是沉积物样本中的淤泥、粘土或沙子的百分比——只有这些类型中的一种用于 beta 回归,所有这三种类型都用于 Dirichlet 回归),那么 beta 回归就会自我暗示。它不是 GLM 意义上的McCullagh和 Nelder,但它是 GLM 大家庭的一部分,看起来、走路和嘎嘎都像 GLM。

是的你可以。模型参数仍然是对数优势比,但它们的估计方式不同。具有此类规格的模型基本上是非线性最小二乘法,其中 logit“S”曲线适合 0/1 结果,以最小化平方误差。然而,与通常的逻辑回归的对比是众所周知的:这种方法对 0/1 结果的权重很小,因为当按二项式方差缩放时,0.95 与 0.96 的比例差异要大得多。高斯族不假设任何均值-方差关系。这就是为什么这种方法不经常使用的原因。

如果给你的结果是比例,那么迫切的问题是:你有这些比例的分母吗?例如,0.43% 是从参与者中计算出来的吗和/或这个值在您获得的各种观察结果之间是否存在差异?如果是这样,对二项式似然进行加权可以对完全观察到的 0/1 计数进行等效推断。n=100n=200

例如,在 R 中,它仍然会警告您使用了非二进制结果变量,但在输入这种格式的数据时,拟合算法不会“中断”。其他软件可能会完全阻止此类方法,因此您必须创建产品变量。

但是,如果没有此类计数,则应使用其他稳健的误差估计方法。其他人关于拟似然的建议似乎是一个合理的选择。