稍微简化一下,我有大约一百万条记录,记录了一个跨越大约十年的系统中人们的进入时间和离开时间。每条记录都有进入时间,但不是每条记录都有退出时间。系统中的平均时间约为 1 年。
缺少退出时间的原因有两个:
- 在捕获数据时,此人尚未离开系统。
- 没有记录此人的离开时间。这恰好说 50% 的记录
感兴趣的问题是:
- 人们在系统中花费的时间是否更少,时间少了多少。
- 是否记录了更多的退出时间,以及有多少。
我们可以通过说出口被记录的概率随时间线性变化来建模,并且系统中的时间有一个 Weibull,其参数随时间线性变化。然后,我们可以对各种参数进行最大似然估计,并观察结果并认为它们是合理的。我们选择了 Weibull 分布,因为它似乎用于测量寿命,并且说起来很有趣,而不是比伽马分布更好地拟合数据。
我应该在哪里寻找有关如何正确执行此操作的线索?我们在数学上有些精通,但在统计上却不是非常精通。