逻辑回归的拟合值与概率

机器算法验证 r 物流 广义线性模型 部分 罗吉特
2022-03-16 19:48:22

因变量

我有一个在 [0,1] 范围内的从属值。表示 0 和 1,以及介于两者之间的所有值。因此,这是一个比例值,例如农民施肥的土地百分比。

模型

我目前关注的模型是逻辑模型。

  • 但是,作为输出,我想看看模型如何预测我的因变量(将实际值与估计值进行比较)。

但是,逻辑回归通常会给出“概率”作为输出。结果,我现在有点困惑。

我的模特=

out <- glm(cbind(fertilized, total_land-fertilized) ~ X-variables,
       family=binomial(cloglog), data=Alldata)

预测我使用的施肥土地的估计百分比

Alldata$estimated_fertilized<-predict(out,data=newdata,type="response"))

这个对吗?还是这条线给了我概率而不是预测的百分比?如果不正确,我应该怎么做才能得到我想要的?

更新

鉴于对所选模型的正确性存在疑问,我提供了一些附加信息:

因变量的分布(包括 0-1、0 和 1 的比例)。

直方图因变量

1个回答

事实上,使用逻辑回归来总结观察到的在 [0-1] 范围内的比例是可以的。

过去,当数据实际上是分层的并且分析的目标是总结汇总到集群级别的单个级别的暴露时,这种方法是不可信的。在这种特殊情况下,应用逻辑回归是不正确的,因为生态谬误和优势比作为关联度量的不可折叠性。

逻辑回归估计方程适用于任何分析,其中平均值的对数减去 1 的对数减去平均值的线性模型是合适的(logit 链接),并且当比例的方差等于比例时间时一减去比例(二项式方差假设)。事实证明,后者是一个相当严格的要求,因此分析师通常使用更灵活的方差估计器,如拟二项似然方程或广义估计方程。

逻辑回归(及其变体)的一个问题是不清楚如何验证模型。如果你用均方误差来总结预测准确性——出于多种原因,这是一种有效的方法——应该使用对数曲线的非线性最小二乘 (NLS) 估计器。NLS 将通过最小化与预测响应曲面的平方差之和来找到最佳 S 形曲线,该曲线总结与模型预测变量的关联。或者,如果希望基于协变量的线性组合应用某个阈值来对受精过度或受精不足的田地子集进行分类,则线性判别分析将提供更好的分类。根据大量预测指标,逻辑模型可能不是最优的。

所以最终,决定分析的不是数据的结构,而是分析师试图评估的问题。