对于我的数据集中的每条记录,我有以下信息
在哪里是特征,如果目标事件发生则为 1,否则为 0,并且是发生事件的时间戳。尤其,如果没有事件或设置跟踪结束的时间,则可能会丢失。
我想为我的数据集中的每条记录计算一个风险指数。
我正在考虑使用使用特征的分类模型预测类. 然而,很重要:如果事件可能很快就会发生风险应该更高。
这就是为什么生存分析应该适合这个问题。我不需要对但只是代表单个记录风险的单个索引。
可以为每条记录计算的平均生存时间似乎是一个不错的风险指数——风险越低,风险越高。
我的问题是:
- 生存分析是否适合我的目的?
- 如何评估模型的性能?
关于问题(2):我热衷于使用 Harrell's-index 例如,但我不确定使用哪个预测结果来计算它。从 Harrell 的书 Regression Modeling Strategies 第 247 页:
这index [...] 是通过获取所有可能的受试者对来计算的,这样一个受试者有反应而另一个没有。该指数是此类对的比例,其中响应者的预测响应概率高于非响应者。
如果生存分析被证明是一个正确的选择,我认为应该很容易使用一些标准方法来引入时变协变量.