在 logit、probit 和 nls 之间选择最佳模型

机器算法验证 r 罗吉特 似然比 概率 nls
2022-03-23 06:53:54

我正在分析某个数据集,我需要了解如何选择适合我的数据的最佳模型。我正在使用 R。

我拥有的数据示例如下:

corr <- c(0, 0, 10, 50, 70, 100, 100, 100, 90, 100, 100)

这些数字对应于 11 种不同条件下的正确答案百分比 ( cnt):

cnt <- c(0, 82, 163, 242, 318, 390, 458, 521, 578, 628, 673)

首先,我尝试拟合一个概率模型和一个 logit 模型。刚才我在文献中发现了另一个方程来拟合与我相似的数据,所以我尝试使用nls函数根据该方程拟合我的数据(但我不同意,作者没有解释为什么他使用该等式)。

这是我得到的三个模型的代码:

resp.mat <- as.matrix(cbind(corr/10, (100-corr)/10))
ddprob.glm1 <- glm(resp.mat ~ cnt, family = binomial(link = "logit"))
ddprob.glm2 <- glm(resp.mat ~ cnt, family = binomial(link = "probit"))

ddprob.nls <- nls(corr ~ 100 / (1 + exp(k*(AMP-cnt))), start=list(k=0.01, AMP=5))

现在我绘制了数据和三个拟合曲线:

pcnt <- seq(min(cnt), max(cnt), len = max(cnt)-min(cnt)) 
pred.glm1 <- predict(ddprob.glm1, data.frame(cnt = pcnt), type = "response", se.fit=T) 
pred.glm2 <- predict(ddprob.glm2, data.frame(cnt = pcnt), type = "response", se.fit=T) 
pred.nls <- predict(ddprob.nls, data.frame(cnt = pcnt), type = "response", se.fit=T)

plot(cnt, corr, xlim=c(0,673), ylim = c(0, 100), cex=1.5)
lines(pcnt, pred.nls, lwd = 2, lty=1, col="red", xlim=c(0,673))
lines(pcnt, pred.glm2$fit*100, lwd = 2, lty=1, col="black", xlim=c(0,673)) #$
lines(pcnt, pred.glm1$fit*100, lwd = 2, lty=1, col="green", xlim=c(0,673))

现在,我想知道:我的数据的最佳模型是什么?

  • 概率
  • 罗吉特
  • nls

三个模型的 logLik 是:

> logLik(ddprob.nls)
'log Lik.' -33.15399 (df=3)
> logLik(ddprob.glm1)
'log Lik.' -9.193351 (df=2)
> logLik(ddprob.glm2)
'log Lik.' -10.32332 (df=2)

logLik 是否足以选择最佳模型?(这将是 logit 模型,对吗?)或者还有其他我需要计算的东西吗?

1个回答

使用什么模型的问题与分析的目标有关。

如果目标是开发一个分类器来预测二元结果,那么(如您所见),这三个模型都大致相同,并为您提供大致相同的分类器。这使它成为一个有争议的问题,因为您不关心哪个模型开发了您的分类器,您可能会使用交叉验证或拆分样本验证来确定哪个模型在类似数据中表现最佳。

在推理中,所有模型估计不同的模型参数。所有三个回归模型都是GLM的特例,它们使用链接函数和方差结构来确定二元结果和(在这种情况下)连续预测变量之间的关系。NLS 和逻辑回归模型使用相同的链接函数(logit),但 NLS 最小化 S 曲线拟合的平方误差,其中逻辑回归是在线性模型假设下对模型数据的最大似然估计模型概率和观察结果的二元分布。我想不出为什么我们认为 NLS 对推理有用。

Probit 回归使用不同的链接函数,即累积正态分布函数。这比 logit 更快地“变细”,并且通常用于对二进制数据进行推断,该二进制数据被观察为未观察到的连续正态分布结果的二进制阈值。

根据经验,逻辑回归模型更常用于分析二进制数据,因为模型系数(优势比)易于解释,它是一种最大似然技术,并且具有良好的收敛性。