我想对个人“死亡”之前的持续时间进行一些生存回归。最终目的是知道,给定一个人,他最有可能“死亡”之前需要多长时间(例如,生存函数的概率小于 0.1)。
我的问题是,在我的训练集中,我有一个变量对我的目标变量有很大影响,但不适用于测试集(并且不会在现实生活中发生)。
假设我的训练数据如下:
id status poison_time death_time sex
0 1 90 92 f
1 0 90 150 f
2 1 90 91 f
3 1 60 130 m
4 0 60 150 m
5 1 60 62 m
和 :
- status = 1 代表死者,0 代表审查数据
- 毒药时间 : 对应于注射毒药的时间
- death_time : 死亡时间或最后一次随访时间
- sex :个人的性别(这里不相关,想象一堆有用的变量)
我不能忽略poison_time: 尽管对于某些人来说,毒药不会那么有效(id 为 3 的个人,或最终被右删失的个人)的影响。它对death_time.
在我的测试数据中没有注射毒药,但我仍然想知道“一个人最有可能死亡需要多长时间”,知道我的其他变量(性别等)
像训练集这样的损坏数据是否仍然有可能得到相关结果?