数据挖掘 - 如何处理缺失数据以进行生存分析 - 吾爱随笔录

我有一个由来自患者调查数据的问卷组成的数据集。在治疗的第一天、一周后、两周后等等直到 3 个月后的几个治疗阶段，大约有 10 个问题被问到。现在有些患者在治疗阶段之间辍学。我拥有的数据集由大约 50 列组成（10 个问题在治疗过程中重复超过 5 次），但由于一些患者退出治疗，因此缺少数据。

我的问题是：

我如何处理丢失的数据，因为它不是由患者填写的？

我应该用平均值估算还是有其他方法？

PS：我是生存分析的新手。因此，任何帮助将不胜感激。提前致谢。

id  age sex dropout s1_q1 s1_q2 s1_q3 s1_q4 s1_q5.... s5_q10 
217 50  m   0       2     3     3     3     2         3
202 58  f   0       4     9     10    10    10        N/A
222 72  m   1       3     8     9     10    9         N/A
207 50  m   0       2     7     6     7     7         6
277 55  f   0       2     4     5     5     5         6
281 62  m   0       4     10    10    10    10        10

id age sex dropout s1_q1 s1_q2 s1_q3 s1_q4 s1_q5.... s5_q10 s5_q10_missing 217 50 m 0 2 3 3 3 2 3 0 202 58 f 0 4 9 10 10 10 6.25 1 222 72 m 1 3 8 9 10 9 6.25 1 207 50 m 0 2 7 6 7 7 6 0 277 55 f 0 2 4 5 5 5 6 0 281 62 m 0 4 10 10 10 10 10 0