使用具有双峰分布的问卷分数(EuroQol 的 EQ-5D)作为线性回归的结果是否存在问题?

机器算法验证 回归 正态分布 多项分布 正态假设 评分
2022-04-15 12:44:29

目前存在一个争论,即是否可以在线性回归模型中使用具有天花板问题和双峰分布的EQ-5D 分数。

背景

该分数非常简单,经常用于评估患者与健康相关的生活质量,由五个问题组成,每个问题有 3 个可能的答案(有一个较新的有 5 个答案,但使用较少)。

该分数通常在国家登记中用作患者报告的结果测量 (PROM),并且非常方便,因为问题很容易回答,因此完整性很好。

连续得分

分数是通过使用“关税”创建的,其中 5 个变量的独特组合转化为类似连续的变量,但具有上述限制。我不确定他们如何决定关税分数,但答案的不同组合组合成一个独特的值,例如,如果你在所有五个类别中都回答了最佳健康,你会得到一个代码 11111,最大值为 1.000。如果您在前 2 个问题上回答得最好,而在最后 3 个问题上回答得最差,那么您的代码为 11333,得分为 -0.066。该分数是根据国家/地区调整的,在我的瑞典关税中介于 -0.594 到 1.000 之间。

帕累托计算

在大多数骨科研究中,我们都有术前评分和术后评分。通过比较这两个模型,因为帕累托健康变化分类表明我们得到了四种可能的结果;没有变化、更糟、改进或混合变化。混合意味着一个类别得到改善而另一个类别恶化。据我了解,帕累托结果最好使用多项逻辑模型进行分析。

我的问题

  • 当拥有超过 10 000 名患者的大型数据集时,分数不是正态分布是否重要,帕累托分析分数的方法是否更好?
  • 像这样的分数在今天非常常用——有什么限制?

更新

在接受了所有这些明智的论点并与我们的统计学家仔细讨论后,我得到了一些有趣的意见:

  1. 在大样本中,只要样本没有严重偏斜,中心极限定理就会发挥作用
  2. 如果分数本身有缺陷(如 EQ-5D 分数),那么期望正态分布可能是不正确的,因为双峰不是由于子组而是由于分数特征(我认为这是一种不同的表达方式@whuber 写道:“......残差将密切反映错误分布”
  3. 样本的正态性有助于计算p 值/置信区间,这可以通过使用自举来规避
  4. 使用序数回归并忽略混合组,我们可以验证线性回归的结果 - 即表明预测变量在使用“非参数”时表现相似
3个回答

您首先应该问的一个问题是,对于您想要进行的分析,使用加权分数是否正确。Parkin, D.、Rice, N. 和 Devlin, N. (2010) EQ-5D 配置文件的统计分析:是否使用值集偏差推断?医疗决策。30(5), 556-565 doi: 10.1177/0272989X09357473 Devlin, N., Parkin, D. and Browne, J. (2010) Patient-reported results in NHS: New methods for analysis并报告 EQ-5D 数据。卫生经济学。19(8), 886-905.DOI: 10.1002/hec.1608

如果使用分数没问题,那么真正重要的是回归残差的分布,而不是分数。如果您使用的是 Paretian 分类,则不能使用有序模型是正确的。

“关税”是一个略显愚蠢的标签,但出于历史原因已在此背景下使用。仅仅意味着一组附加到分类 EQ-5D 健康状态的分数。

首先,对连续变量进行分类通常不是一个好主意;Royston、Altman 和 Saurbrei写了一篇关于为什么二分法不好的文章,同样的论点适用于更多类别。Altman写了一篇关于对变量进行分类的文章,但只有摘要是免费提供的,我还没有阅读整篇文章。

其次,线性回归的假设不是因变量是正态分布的,而是模型的残差是正态分布的。因此,在您查看模型是否违反假设之前,您需要运行它并查看结果。

第三,如果残差不是正态分布的,你有几种选择:

  1. 您列出的四个类别的多项逻辑回归
  2. 排除“混合”的有序逻辑回归。
  3. 分别查看每个类别
  4. 某种稳健的回归

在做任何这些之前,我的冲动是以图形方式查看变量,包括密度图和可能的分位数正态图。

如果您有一些预测变量(我假设您在问题中提到回归),我想知道是否使用 Paretian 度量作为因变量的序数逻辑回归(这似乎是 pre 的有序类别- 与后差异),是最好的前进方式。我喜欢加州大学洛杉矶分校的网站,因为他们对各种方法的解释清晰,这是他们使用 SPSS 进行序数逻辑回归的概述,是他们的 Stata 示例正如您从这些站点中看到的那样,您将需要验证您的数据是否满足比例赔率假设。

序数逻辑回归是一种公认​​的统计方法,Agresti 教授在他的分类数据分析书籍中对此进行了描述。如果你的工作让你走上分类数据分析的道路,我建议购买他的任何一本书。