对连续因变量使用逻辑回归

机器算法验证 回归 物流 多重回归
2022-03-19 21:17:23

我最近对我的研究论文进行了修订,以下是审稿人对我论文的评论:

从一个模型获得的结果不太令人信服,特别是线性回归通常在处理异常值方面存在缺陷。我建议作者也尝试逻辑回归,并将相应的结果与当前结果进行比较。如果获得类似的观察结果,结果将更加可靠。

审稿人的意见对吗?逻辑回归比多元线性回归更好吗?

问题是我的因变量不是分类变量,它是一个尺度变量。我现在能做什么?你推荐什么其他回归方法来评估我的模型?

分数是下表中的因变量。新近度、频率、任期和最后得分是自变量。

在此处输入图像描述

我从一个站点中提取了这些变量,并假设这些自变量分数显着影响因此,我代表以下模型:

在此处输入图像描述


顺便说一下,这个线性模型的 R 平方值为 0.316!审稿人也评论了这个值:

那么结果并不令人信服,因为没有关于学习系数质量的指标。小的 R^2 不能表示良好的性能,因为模型可能过拟合。

R 平方的 0.316 是否非常低?在以前的论文中,我看到了很多类似的值。

在此处输入图像描述

4个回答

比例优势序数逻辑回归模型应该可以很好地解决这个问题。对于可以允许数千个独特的有效实施Y值请参见ormRrms包中的函数。

您还可以通过分别将值 1、2,3 和 4 分配给第 1、.....、第 4 个百分位数的分数来尝试有序概率/logit 模型。

您可以对分数进行二分法(转换为二进制变量)。如果分数是从 0 到 100,那么您可以将 0 分配给小于 50 的任何分数,否则分配 1。不过,我以前从未听说过这是处理异常值的好方法。这可能只是隐藏异常值,因为无法区分非常高或低的分数。这对我来说没有多大意义,但你可以试试。

更重要的是,为什么要对所有协变量和响应变量进行日志转换?这会影响你的β估计和你的R2(我想)。

审稿人还说小R2暗示过拟合?我认为过度拟合是当你的R2很高,但您的模型在新数据上表现不佳(即它过度拟合您的数据但不能推广到新数据)。当您尝试使用大量参数进行预测的观察结果很少时,往往会发生过度拟合。这就是您在模型 2 中所做的事情,因为您有 8 个观察结果,您试图用 7 个参数来解释这些观察结果。

我不会假装我对统计了解很多,但在我看来,根据他的评论,这位审稿人可能知道得更少。

甚至可以将逻辑回归应用于连续的因变量。这是有道理的,如果您想确保预测score始终在范围内[0, 100](我从您的屏幕截图中判断它是 100 分制)。

要做到这一点,只需将您的分数除以 100,然后使用基于此[0,1]的目标变量运行逻辑回归,就像在这个问题中一样- 您可以使用,例如,R使用

glm(y~x, family="binomial", data=your.dataframe)

我不知道这种方法是否对异常值有帮助 - 这取决于您期望的异常值类型。但有时它会提高贴合度(甚至R2,如果您的因变量具有自然的下限和上限。

至于第二个问题,R20.3可能是您可以从数据中挤出的最好的东西,而不会过度拟合。如果您出于推理目的构建模型,则低R2完全没问题,只要对你很重要的系数很重要。如果要检查模型是否过拟合,可以检查其R2 在测试集上,甚至进行交叉验证。