机器算法验证 - Cox回归预测模型的样本量和交叉验证方法 - 吾爱随笔录

Cox回归预测模型的样本量和交叉验证方法

机器算法验证预测模型生存流行病学生物统计学 cox模型

2022-03-07 01:47:26

我有一个问题想向社区提出。我最近被要求为肿瘤标志物预后研究提供统计分析。我主要使用这两个参考来指导我的分析：

麦克肖恩 LM 等人。肿瘤标志物预后研究（REMARK）的报告建议。J Natl 癌症研究所。2005 年 8 月 17 日；97（16）：1180-4。
西蒙 RM 等人。使用交叉验证评估基于高维数据的生存风险分类器的预测准确性。简短的生物信息。2011年5月；12（3）：203-14。电子版 2011 年 2 月 15 日。

我在下面总结了这项研究和我的分析。我将不胜感激任何意见、建议或批评。

学习背景：

一些癌症 X 患者在治疗后会出现早期复发。目前医生使用的临床预后评分不能很好地预测这些患者的临床结果。因此，识别在该标准得分之上和之上增加价值的生物学预后标志物将是有用的。本研究的目的是发现这样的生物标志物。

学习方法：

候选生物标志物的预选

在先前的研究中确定了与癌症 X 相关的 12 种生物标志物。我们试图在患者/肿瘤的独立样本中验证这 12 名候选者与癌症 X 之间的关联，如下所述。

预选候选生物标志物的单变量验证

在一组 220 名患者/肿瘤中测量了这些生物标志物的水平。

[注意：我已经屏蔽了数据，并将它们作为*.csv 文件提供给公众下载。该文件具有以下列： “ID”，每个患者的唯一标识符；“PS”，每位患者的预后评分，1表示预后良好，2表示预后不良；“m1”到“m12”，每个肿瘤标志物的水平；“时间”，以月为单位；和“事件”，其中 0 表示观察受到谴责，1 表示发生治疗失败。]

为 12 个生物标志物（n = 220 次观察，事件数 = 91）中的每一个建立了以死亡时间作为因变量的单变量 Cox 回归模型。

    Risk  LCI  UCI pValue
1   0.93 0.86 1.02 0.1088
2   0.93 0.88 0.99 0.0215
3   0.99 0.92 1.05 0.6528
4   0.93 0.87 1.00 0.0468
5   0.93 0.88 0.98 0.0055
6   0.97 0.92 1.01 0.1202
7   0.91 0.83 0.99 0.0297
8   0.98 0.90 1.07 0.6972
9   0.99 0.92 1.06 0.7841
10  1.01 0.91 1.11 0.9149
11  0.96 0.87 1.05 0.3837
12  0.90 0.83 0.97 0.0047

使用 0.05/12 = 0.004 的阈值 p 值，所有结果均不显着。

多变量分析

决定通过将所有 12 种生物标志物一次输入使用十倍交叉验证的逐步 Cox 回归算法来拟合数据的模型。在十个不同的训练集上建立十个模型后，建立时间相关的 ROC 曲线以允许选择最佳截止点来识别两组患者，“高”和“低”风险。选择最小化“1 - TP + FP”的切割点。然后要求这十个模型对验证组中的相应患者进行预测。然后将这些患者分为“高”和“低”风险组，并绘制在单个交叉验证的 Kaplan Meier 曲线上。

结论

高风险曲线和低风险曲线的置信区间显着重叠，表明已鉴定的生物标志物不是有用的预后标志物。因此，我们的研究未发现这些标志物与患者预后之间存在任何显着的单变量或多变量关联。

社区问题

我是否以正确的方式分析我的数据？

如果你是这项研究的统计学家，你会做一些不同的事情吗？

在进行验证分析之前，未进行样本大小和功效计算以确定要包括的样本数量和可检测的效应大小。我想现在进行这些分析以指导未来的研究。有人可以告诉我该怎么做吗？

我真正感兴趣的是这些生物标志物是否提供超出临床预后评分的预测信息。据我了解，这将需要制作三个不同的模型：（1）仅具有临床协变量的模型，（2）仅具有生物标志物协变量的生物标志物模型，以及（3）基于两种协变量的生物标志物/临床模型。到目前为止，我已经制作了模型 1（上面未显示；它也无法区分我们样本中的高风险和低风险患者）和模型 2（如上所示）。因为 1 和 2 不重要，所以我没有制作模型 3。我应该这样做吗？

任何关于分析问题的额外评论将不胜感激！请随时下载屏蔽数据并亲自查看。

1个回答

您已经很好地描述了这个问题，并以多种方式很好地设置了它。我不清楚“预后评分”的定义，但 2 级评分不太可能对临床有帮助。在选择时根据专家意见调整所有相关的可用临床变量，这一点很重要。以下是一些改进的机会：

10 折交叉验证是不稳定的，需要重复 100 次才能获得足够的精度（或使用 Efron-Gong 乐观自举法进行 400 次重采样；这两种方法都在 Rrms包中提供）
由 ROC 曲线驱动将信号分为“好”和“坏”是一种流行的技术，但不是基于任何好的统计原理。任何值得称道的生物标志物都应该具有剂量反应关系，并且将其分为两个非常武断的组是不必要的、误导性的，并且会丢失信息和功率。
在这种情况下，ROC 曲线绝对没有什么可提供的
在生物标志物上选择切点是一场统计灾难。除其他事项外，它未能认识到数学上是否有任何切点有用，它们只能位于后端，而不是协变量端，因为每个标记的切点取决于患者所有其他标记值的绝对值。
没有惩罚的逐步回归是不可靠的。在您的设置中，没有理由不将所有标记放入一个模型并进行似然比 $\chi^2$ 测试以测试它们添加到临床变量的值。
5. 的一个很好的替代方法是对生物标志物进行冗余分析或变量聚类，以在将它们与结果相关联之前减少它们的数量。
如果您的样本量较大，您可以允许所有变量使用回归样条非线性地进入模型。偶尔允许一个生物标志物是平滑的和非线性的，其值比强制线性加倍。
让对数似然，这是一个最佳评分规则（惩罚似然会更好）来完成它的工作。不要花时间在不正确的准确性评分规则上。
考虑使用基于对数似然的“充分性指数”来描述生物标志物的效用，如我的《回归建模策略》一书中所述。

其它你可能感兴趣的问题

上一篇Cox 比例风险模型和非随机选择的样本下一篇系列相似性的可靠衡量标准 - 相关性对我来说并不适用