目前存在一个争论,即是否可以在线性回归模型中使用具有天花板问题和双峰分布的EQ-5D 分数。
背景
该分数非常简单,经常用于评估患者与健康相关的生活质量,由五个问题组成,每个问题有 3 个可能的答案(有一个较新的有 5 个答案,但使用较少)。
该分数通常在国家登记中用作患者报告的结果测量 (PROM),并且非常方便,因为问题很容易回答,因此完整性很好。
连续得分
分数是通过使用“关税”创建的,其中 5 个变量的独特组合转化为类似连续的变量,但具有上述限制。我不确定他们如何决定关税分数,但答案的不同组合组合成一个独特的值,例如,如果你在所有五个类别中都回答了最佳健康,你会得到一个代码 11111,最大值为 1.000。如果您在前 2 个问题上回答得最好,而在最后 3 个问题上回答得最差,那么您的代码为 11333,得分为 -0.066。该分数是根据国家/地区调整的,在我的瑞典关税中介于 -0.594 到 1.000 之间。
帕累托计算
在大多数骨科研究中,我们都有术前评分和术后评分。通过比较这两个模型,因为帕累托健康变化分类表明我们得到了四种可能的结果;没有变化、更糟、改进或混合变化。混合意味着一个类别得到改善而另一个类别恶化。据我了解,帕累托结果最好使用多项逻辑模型进行分析。
我的问题
- 当拥有超过 10 000 名患者的大型数据集时,分数不是正态分布是否重要,帕累托分析分数的方法是否更好?
- 像这样的分数在今天非常常用——有什么限制?
更新
在接受了所有这些明智的论点并与我们的统计学家仔细讨论后,我得到了一些有趣的意见:
- 在大样本中,只要样本没有严重偏斜,中心极限定理就会发挥作用
- 如果分数本身有缺陷(如 EQ-5D 分数),那么期望正态分布可能是不正确的,因为双峰不是由于子组而是由于分数特征(我认为这是一种不同的表达方式@whuber 写道:“......残差将密切反映错误分布”
- 样本的正态性有助于计算p 值/置信区间,这可以通过使用自举来规避
- 使用序数回归并忽略混合组,我们可以验证线性回归的结果 - 即表明预测变量在使用“非参数”时表现相似