Y 有界且离散时的线性回归

机器算法验证 回归 多重回归 最小二乘 线性的 界限
2022-02-02 09:26:23

问题很简单:当 Y 有界且离散时(例如测试分数 1~100,一些预定义的排名 1~17),是否适合使用线性回归?在这种情况下,使用线性回归是“不好”,还是使用它是完全错误的?

4个回答

当响应或结果有界时,在拟合模型时会出现各种问题,包括: Y

  1. 任何可以预测超出这些范围的响应值的模型原则上都是可疑的。因此,线性模型可能存在问题,因为每当本身在一个或两个方向上无界时,预测变量和系数然而,这种关系可能足够弱,以至于不会咬人,和/或预测可能很好地保持在预测变量的观察或合理范围内。在一个极端情况下,如果响应是某种均值噪声,那么适合哪个模型几乎无关紧要。Y^=XbXbX+

  2. 由于响应不能超出其界限,非线性关系通常更合理,因为预测的响应会逐渐接近界限。诸如 logit 或 probit 模型预测的 Sigmoid 曲线或曲面在这方面很有吸引力,现在不难拟合。诸如识字率(或采用任何新想法的分数)之类的响应通常会及时显示出这样的 sigmoid 曲线,并且几乎可以与任何其他预测变量一起显示。

  3. 有界响应不能具有普通或普通回归中预期的方差属性。必然地,当平均响应接近下限和上限时,方差总是接近于零。

应根据工作原理和对底层生成过程的了解来选择模型。客户或观众是否了解特定的模型系列也可以指导实践。

请注意,我故意避免笼统的判断,例如好/不好、合适/不合适、对/错。所有模型充其量都是近似值,而哪个近似值有吸引力,或者对项目来说足够好,并不容易预测。我自己通常倾向于将 logit 模型作为有界响应的首选,但即使是这种偏好也部分基于习惯(例如,我没有很好的理由避免使用概率模型),部分基于我将报告结果的位置,通常是向以下读者群报告结果,或者应该是,统计上消息灵通。

您的离散量表示例适用于分数 1-100(在我标记的作业中,0 肯定是可能的!)或排名 1-17。对于这样的尺度,我通常会考虑将连续模型拟合到缩放到 [0, 1] 的响应。然而,有一些序数回归模型的从业者很乐意将这些模型拟合到具有相当大量离散值的尺度。如果他们有这样的想法,我很高兴他们回复。

我从事卫生服务研究。我们收集患者报告的结果,例如身体功能或抑郁症状,它们经常以您提到的格式进行评分:0 到 N 的量表是通过将量表中的所有单个问题相加而产生的。

我看过的绝大多数文献都只是使用了线性模型(如果数据来自重复观察,则使用分层线性模型)。我还没有看到有人使用@NickCox 对(分数)logit 模型的建议,尽管它是一个完全合理的模型。

项目反应理论让我印象深刻,因为它是另一个可行的统计模型。这是您假设某些潜在特征使用逻辑或有序逻辑模型对问题做出响应的地方。这从本质上解决了尼克提出的有界性和可能的​​非线性问题。θ

下图源于我即将发表的论文工作。这是我将线性模型(红色)拟合到已转换为 Z 分数的抑郁症状问题分数,以及将蓝色(解释性)IRT 模型拟合到相同问题的地方。基本上,两个模型的系数都在相同的范围内(即标准偏差)。实际上,系数的大小有相当大的一致性。正如尼克所暗示的,所有模型都是错误的。但是线性模型使用起来可能不会太错误。

在此处输入图像描述

也就是说,几乎所有当前 IRT 模型的基本假设是所讨论的特征是双极的,即它的支持是抑郁症状可能并非如此。单极潜在特征的模型仍在开发中,标准软件无法适应它们。我们感兴趣的卫生服务研究中的许多特征可能是单极的,例如抑郁症状、精神病理学的其他方面、患者满意度。所以 IRT 模型也可能是错误的。

(注意:上面的模型适合我们在 R 中使用 Phil Chalmers 的mirt包。使用ggplot2和生成的图形ggthemes。配色方案来自 Stata 默认配色方案。)

查看预测值并检查它们是否与原始 Ys 具有大致相同的分布。如果是这种情况,线性回归可能没问题。改进你的模型你将收获甚微。

线性回归可能“充分”描述了此类数据,但不太可能。在这种类型的数据中,线性回归的许多假设往往被违反,以至于线性回归变得不明智。我将仅选择一些假设作为示例,

  1. 正态性 - 即使忽略此类数据的离散性,此类数据也往往表现出极端违反正态性的情况,因为分布被边界“切断”。
  2. 同方差性 - 这种类型的数据往往违反同方差性。与边缘相比,当实际均值接近范围的中心时,方差往往更大。
  3. 线性 - 由于 Y 的范围是有界的,因此自动违反了假设。

如果数据倾向于落在范围的中心附近,远离边缘,那么违反这些假设的情况就会得到缓解。但实际上,线性回归并不是此类数据的最佳工具。更好的选择可能是二项式回归或泊松回归。