是否存在评估生存回归模型(例如 Weibull 加速故障时间)预测能力的首选方法?目前,选择的度量标准是一致性或 c-index。我正在考虑以预测/可概括的方式总结一致性指标的三种可能性:
- 使用其标准误差(使用整个数据集进行评估)
- 执行自举(使用整个数据集进行评估,带放回抽样)
- 可能重复执行分层的 k 折交叉验证(将整个数据集划分为训练和验证集,应用抽样而不进行替换,但基于状态 0(暂停)或 1(失败)进行分层)
哪个是最好的策略?为什么?如果故障的数量比暂停的数量相对少得多怎么办?
是否存在评估生存回归模型(例如 Weibull 加速故障时间)预测能力的首选方法?目前,选择的度量标准是一致性或 c-index。我正在考虑以预测/可概括的方式总结一致性指标的三种可能性:
哪个是最好的策略?为什么?如果故障的数量比暂停的数量相对少得多怎么办?
最好的选择类似于第二个(引导)选项,但采取了额外的步骤来使估计更接近模型在应用于基础人群时的表现。
Bootstrapping 不仅让您能够估计性能指标的标准误差。它还使您能够估计性能指标中的偏差,这是由于手头数据集的潜在过度拟合而引起的。在bootstrap 原则下,来自数据集中的多个 bootstrap 样本会重复从基础总体中获取数据集。
因此,您在多个 bootstrap 样本上训练模型,并在相应的 bootstrap 样本和完整数据集上评估它们中的每一个。计算应用于相应引导样本和完整数据集的模型之间的性能指标的平均偏差。当应用于基础总体时,这会估计基于完整数据集的完整模型度量的偏差。然后,除了原始指标外,您还可以报告模型的乐观校正指标。
这种乐观引导是在R包validate()的函数中实现的,适用于许多模型类型,包括参数生存模型。它还评估了 C-index 之外的几个性能指标。rms
类似的事情可以通过重复的交叉验证来完成,交叉验证是validate()函数中的一个选项。目前尚不清楚它是否比引导程序具有任何优势,其理由如上所述。
就事件数量与审查案例而言,主要问题是任何估计的精确度将取决于事件总数。如果相对于事件数量有许多预测变量,您可能会遇到一些自举样本没有足够的事件来拟合您的模型的问题,但在这种情况下,您可能已经过拟合了。