我有一个问题想向社区提出。我最近被要求为肿瘤标志物预后研究提供统计分析。我主要使用这两个参考来指导我的分析:
麦克肖恩 LM 等人。肿瘤标志物预后研究(REMARK)的报告建议。J Natl 癌症研究所。2005 年 8 月 17 日;97(16):1180-4。
西蒙 RM 等人。使用交叉验证评估基于高维数据的生存风险分类器的预测准确性。简短的生物信息。2011年5月;12(3):203-14。电子版 2011 年 2 月 15 日。
我在下面总结了这项研究和我的分析。我将不胜感激任何意见、建议或批评。
学习背景:
一些癌症 X 患者在治疗后会出现早期复发。目前医生使用的临床预后评分不能很好地预测这些患者的临床结果。因此,识别在该标准得分之上和之上增加价值的生物学预后标志物将是有用的。本研究的目的是发现这样的生物标志物。
学习方法:
候选生物标志物的预选
在先前的研究中确定了与癌症 X 相关的 12 种生物标志物。我们试图在患者/肿瘤的独立样本中验证这 12 名候选者与癌症 X 之间的关联,如下所述。
预选候选生物标志物的单变量验证
在一组 220 名患者/肿瘤中测量了这些生物标志物的水平。
[注意:我已经屏蔽了数据,并将它们作为*.csv 文件提供给公众下载。该文件具有以下列: “ID”,每个患者的唯一标识符;“PS”,每位患者的预后评分,1表示预后良好,2表示预后不良;“m1”到“m12”,每个肿瘤标志物的水平;“时间”,以月为单位;和“事件”,其中 0 表示观察受到谴责,1 表示发生治疗失败。]
为 12 个生物标志物(n = 220 次观察,事件数 = 91)中的每一个建立了以死亡时间作为因变量的单变量 Cox 回归模型。
Risk LCI UCI pValue
1 0.93 0.86 1.02 0.1088
2 0.93 0.88 0.99 0.0215
3 0.99 0.92 1.05 0.6528
4 0.93 0.87 1.00 0.0468
5 0.93 0.88 0.98 0.0055
6 0.97 0.92 1.01 0.1202
7 0.91 0.83 0.99 0.0297
8 0.98 0.90 1.07 0.6972
9 0.99 0.92 1.06 0.7841
10 1.01 0.91 1.11 0.9149
11 0.96 0.87 1.05 0.3837
12 0.90 0.83 0.97 0.0047
使用 0.05/12 = 0.004 的阈值 p 值,所有结果均不显着。
多变量分析
决定通过将所有 12 种生物标志物一次输入使用十倍交叉验证的逐步 Cox 回归算法来拟合数据的模型。在十个不同的训练集上建立十个模型后,建立时间相关的 ROC 曲线以允许选择最佳截止点来识别两组患者,“高”和“低”风险。选择最小化“1 - TP + FP”的切割点。然后要求这十个模型对验证组中的相应患者进行预测。然后将这些患者分为“高”和“低”风险组,并绘制在单个交叉验证的 Kaplan Meier 曲线上。
结论
高风险曲线和低风险曲线的置信区间显着重叠,表明已鉴定的生物标志物不是有用的预后标志物。因此,我们的研究未发现这些标志物与患者预后之间存在任何显着的单变量或多变量关联。
社区问题
我是否以正确的方式分析我的数据?
如果你是这项研究的统计学家,你会做一些不同的事情吗?
在进行验证分析之前,未进行样本大小和功效计算以确定要包括的样本数量和可检测的效应大小。我想现在进行这些分析以指导未来的研究。有人可以告诉我该怎么做吗?
我真正感兴趣的是这些生物标志物是否提供超出临床预后评分的预测信息。据我了解,这将需要制作三个不同的模型:(1)仅具有临床协变量的模型,(2)仅具有生物标志物协变量的生物标志物模型,以及(3)基于两种协变量的生物标志物/临床模型。到目前为止,我已经制作了模型 1(上面未显示;它也无法区分我们样本中的高风险和低风险患者)和模型 2(如上所示)。因为 1 和 2 不重要,所以我没有制作模型 3。我应该这样做吗?
任何关于分析问题的额外评论将不胜感激!请随时下载屏蔽数据并亲自查看。