机器算法验证 - 具有 logit 链接和高斯族的 GLM，用于预测 0 到 1 之间的连续 DV - 吾爱随笔录

具有 logit 链接和高斯族的 GLM，用于预测 0 到 1 之间的连续 DV

机器算法验证物流广义线性模型二进制数据罗吉特连续数据

2022-03-07 10:02:30

您可以使用具有连续 DV（0 到 1 之间）的 logit 链接运行 GLM 吗？一般来说，建议使用带有 logit 链接的二项式系列，但我猜这是因为该模型假设一个二元 DV。如果我们有一个连续的 DV，我们会想要使用高斯族而不是二项式吗？

如果这个问题没有多大意义，我深表歉意：我只有非常基本的统计学知识，我只是想重新校准几年前一位同事指定的模型。

3个回答

您似乎想使用分数 logit，即比例的准似然模型。这里的关键是它是一个准似然模型，所以这个族指的是方差函数，没有别的。在准可能性中，方差是一个令人讨厌的参数，如果您的数据集足够大，则不必在模型中正确指定该参数。因此，对于分数 logit 模型，我会坚持使用通常的族，并使用二项式族。

如果您的数据确实是连续的比例（我看到的常见示例是沉积物样本中的淤泥、粘土或沙子的百分比——只有这些类型中的一种用于 beta 回归，所有这三种类型都用于 Dirichlet 回归），那么 beta 回归就会自我暗示。它不是 GLM 意义上的McCullagh和 Nelder，但它是 GLM 大家庭的一部分，看起来、走路和嘎嘎都像 GLM。

是的你可以。模型参数仍然是对数优势比，但它们的估计方式不同。具有此类规格的模型基本上是非线性最小二乘法，其中 logit“S”曲线适合 0/1 结果，以最小化平方误差。然而，与通常的逻辑回归的对比是众所周知的：这种方法对 0/1 结果的权重很小，因为当按二项式方差缩放时，0.95 与 0.96 的比例差异要大得多。高斯族不假设任何均值-方差关系。这就是为什么这种方法不经常使用的原因。

如果给你的结果是比例，那么迫切的问题是：你有这些比例的分母吗？例如，0.43% 是从或参与者中计算出来的吗和/或这个值在您获得的各种观察结果之间是否存在差异？如果是这样，对二项式似然进行加权可以对完全观察到的 0/1 计数进行等效推断。 $n=100$ $n=200$

例如，在 R 中，它仍然会警告您使用了非二进制结果变量，但在输入这种格式的数据时，拟合算法不会“中断”。其他软件可能会完全阻止此类方法，因此您必须创建产品变量。

但是，如果没有此类计数，则应使用其他稳健的误差估计方法。其他人关于拟似然的建议似乎是一个合理的选择。

其它你可能感兴趣的问题

上一篇是否必须对数据进行子集化以验证模型？下一篇R vs STATA 哪个对精算师更有价值？