比较创建综合得分的方法

机器算法验证 假设检验 物流 验证 wilcoxon-mann-whitney 检验 合成的
2022-03-26 22:08:35

客观的:

我有生物标志物(都是连续尺度的)和一个二元因变量因为很大(有很多生物标志物),我想结合来做一个综合得分。然而,并不是所有的生物标志物都与相关,我不想包括不相关的生物标志物来创建我的复合变量。我将在与其他协变量的回归中使用此复合变量,以查看这些选定的生物标志物是否共同显示与的任何关联。X1,,XpYpX1,,XpYYY

问题:

1)生物标志物的规模和方差差异很大。

2) 所有生物标志物都有偏态分布。

3) 我决定将这些生物标志物包括在内,以创建与的双变量关联显着的复合变量 ( )。但有时,Wilcoxon 检验显示生物标志物不显着 ( ),但单变量逻辑回归(当仅使用一种生物标志物作为预测因子时)显示其显着 ( ),反之亦然。有时 p 值完全不同。 Yp<0.05p>0.05p<0.05

问题 1:我应该使用哪个 p 值(Wilcoxon 检验与单变量逻辑回归)来决定在复合创建中包含哪些生物标志物(以及为什么)?

方法:

1) 在我们决定将哪些生物标志物包含在复合材料中之后,我们可以看到关联的方向(在我们的例子中,所有生物标志物的更高生物标志物值与相关),找到四分位数,并将四分位数排名相加创建一个简单的复合变量。Y=1

2)我们可以提取第一个主成分分数并将其用作复合变量。

3)我们可以从每个(标准化)生物标志物的单变量逻辑回归中提取系数,然后将这些系数与(标准化)生物标志物水平相乘以创建复合物。β

4)从具有所有(标准化)生物标志物的多变量逻辑回归中提取系数,然后将它们与(标准化)生物标志物水平相乘以创建复合物。β

问题 2:您认为第 3 或第 4 方法有什么问题吗?

验证:

我们计划通过分别回归复合变量(连同其他协变量)并找出模型的 AUC 来比较这些不同的复合变量创建方法。创建复合材料的最佳方法是产生最高 AUC 的方法。

问题3:这种方法对比较有效吗?这三种方法的可比性有问题吗?有没有更好的方法我们可以考虑?

1个回答

问题 1:您说“我们不需要逻辑回归中的生物标志物的任何分布假设”是不正确的。单预测变量逻辑回归特别假设二元结果的对数几率与预测变量的值线性相关因此,如果您使用RNAseq数据作为预测变量,如果您使用序列计数而不是对数转换计数,您将获得不同的结果(对于系数和p值)。

具有强参数假设的逻辑回归和基于非参数秩的 Wilcoxon 检验给出不同的p值一点也不奇怪。当满足线性假设时,逻辑回归可能更强大(检测真正显着关联的能力更强),但在违反假设时则不然。线性假设的有效性可能因预测变量而异。

也就是说,您应该警惕使用任何一组单预测测试来为您的综合分数选择组件。Logistic 回归具有固有的遗漏变量偏差,因此如果您省略与模型结果相关的任何预测变量,您将偏向包含预测变量的系数。请参阅此答案及其链接,作为本网站上讨论这些危险的众多链接之一。

问题 2:基于上述情况,您的方法 3 存在重大问题,因为它依赖于一整套逻辑回归,每个回归都省略了许多与结果相关的预测变量。第四种方法会更好,但下面描述的相关方法可能会更好,具体取决于问题的规模。

问题 3:虽然 AUC 优于模型性能的某些衡量标准,但它在模型比较方面存在显着缺陷评估预测结果概率的模型的最佳方法是使用适当的评分规则,例如Brier score您还需要彻底了解如何进行比较。您应该从初始数据开始评估每个完整的模型构建过程,使用自举或交叉验证,特别是当您的建模使用结果来选择预测变量时。

替代方法:这些取决于您是在评估几十个潜在预测因子(如在某些临床研究中)还是数千个(如在 RNAseq 研究中)。

在第一种情况下,您应该考虑像 Harrell's Regression Modeling Strategies推荐的方法。第二版的第 11 章是一个临床案例研究,说明了如何执行数据缩减(包括线性和非线性主成分)、在建模变量中进行选择、从完整模型中选择反向变量以简化以及逻辑回归的模型评估。

在第二种情况下,您应该使用有原则的方法来选择和加权综合得分的预测变量。LASSO立即浮现在脑海中。这可以被认为是从最好的个体预测器开始,然后以一种避免标准逐步方法中出现的过度拟合的方式添加额外的预测器。统计学习简介在第 6 章中提供了一个易于理解的演示文稿,其中包含一个标准线性回归的工作示例,但glmnet()那里说明的函数(具有相同名称的R 包)也允许逻辑回归。这将为您提供类似于问题 2 中的方法 4 的内容,但具有更可靠的基础。您还可以考虑Elastic Net是 LASSO 和岭回归的组合,当有多个相关预测变量时,它可以最大限度地减少 LASSO 预测变量选择的不稳定性。稀疏统计学习从第 4 章开始描述弹性网络。弹性网络也可以通过glmnet().

最后一个警告:如果您要使用这些线性回归方法中的任何一种,您需要记录预测变量和结果的对数几率之间的线性关系。我怀疑您的某些候选预测变量的这种线性关系的失败导致您最初提出关于逻辑回归和 Wilcoxon 测试结果的不同结果的问题,因此您不想在以后再面对这个问题。