我有一个数据集,用于查看移民申请和签证接受(授予签证)。费率是根据签证申请的“接受”和“拒绝”计算的。
但是,数据集也包含已关闭案例的值。通常这是移民停止赴约、移居其他地方或死亡的时间。因为在计算费率时不使用这些数字,所以费率经常显示为缺失(因为案例既没有被接受也没有被拒绝)。
话虽如此,如果那一年的唯一案例“否则关闭”,是否可以放弃这些观察?我遇到的部分问题是数据集中的随机年份将被删除,因为那一年的唯一决定已关闭。
否则关闭的案例非常武断,正如我所提到的,很可能是移民迁移到其他地方的案例,并且可能只是将第一个国家用作临时过境地。数据并没有具体说明移民离开的原因,他们被关闭的原因等。我不太确定如何处理这些缺失值。由于费率计算,我不相信标准的插补方法在这里会起作用(但我可能是错的)。