客观的:
我有生物标志物(都是连续尺度的)和一个二元因变量。因为很大(有很多生物标志物),我想结合来做一个综合得分。然而,并不是所有的生物标志物都与相关,我不想包括不相关的生物标志物来创建我的复合变量。我将在与其他协变量的回归中使用此复合变量,以查看这些选定的生物标志物是否共同显示与的任何关联。
问题:
1)生物标志物的规模和方差差异很大。
2) 所有生物标志物都有偏态分布。
3) 我决定将这些生物标志物包括在内,以创建与的双变量关联显着的复合变量 ( )。但有时,Wilcoxon 检验显示生物标志物不显着 ( ),但单变量逻辑回归(当仅使用一种生物标志物作为预测因子时)显示其显着 ( ),反之亦然。有时 p 值完全不同。
问题 1:我应该使用哪个 p 值(Wilcoxon 检验与单变量逻辑回归)来决定在复合创建中包含哪些生物标志物(以及为什么)?
方法:
1) 在我们决定将哪些生物标志物包含在复合材料中之后,我们可以看到关联的方向(在我们的例子中,所有生物标志物的更高生物标志物值与相关),找到四分位数,并将四分位数排名相加创建一个简单的复合变量。
2)我们可以提取第一个主成分分数并将其用作复合变量。
3)我们可以从每个(标准化)生物标志物的单变量逻辑回归中提取系数,然后将这些系数与(标准化)生物标志物水平相乘以创建复合物。
4)从具有所有(标准化)生物标志物的多变量逻辑回归中提取系数,然后将它们与(标准化)生物标志物水平相乘以创建复合物。
问题 2:您认为第 3 或第 4 方法有什么问题吗?
验证:
我们计划通过分别回归复合变量(连同其他协变量)并找出模型的 AUC 来比较这些不同的复合变量创建方法。创建复合材料的最佳方法是产生最高 AUC 的方法。
问题3:这种方法对比较有效吗?这三种方法的可比性有问题吗?有没有更好的方法我们可以考虑?