输入不会丢失的数据

数据挖掘 机器学习模型 特征提取 数据插补
2022-02-14 11:43:19

我有两列,[Date Activated] 和 [Date Closed]。一列是帐户的激活日期,另一列是帐户关闭的日期。

有以下三种情况:

案例 1(1/6 数据)关闭账户:账户有激活和关闭日期

  • 将产生一个值


案例 2(1/6 数据)活跃账户:账户有激活日期,但没有关闭日期

  • 将导致 NaT,因此必须进行估算。


案例 3(数据的 2/3) 从未激活帐户:既没有激活日期也没有关闭日期的帐户。

  • 将导致 NaT,因此必须进行估算


对于案例 2,我应该只取这些活动帐户的当前日期和激活日期之间的差异吗?

对于案例 3,我应该用什么来估算 NaT 值?数据没有丢失,只是没有日期,因为它从未被激活,因此从未关闭。用 0 来填充它听起来像是会丢弃在同一天和几天内激活和关闭的帐户的数据。

1个回答

如果帐户的激活和/或关闭尚未发生,则关联的日期值将为null没有将占位符转换为值的正确方法(除非您已经有一个合理的默认值来替换它)。

在您的情况下,我会将日期功能转换为持续时间功能以捕获您尝试使用的信息。DaDc分别为帐户激活和关闭后经过的天数。对于今天捕获的事件,我将从Da / Dc =1 开始,对于缺失的事件Da / Dc =0。在案例 1中,这两个特征都很容易计算对于情况 2Dc将为 0,类似地,对于情况 3DaDc都将为零。

为了将刚刚发生的事件 ( Da / Dc =1) 与一天前发生的事件 ( Da / Dc =2) 与迄今为止尚未发生的事件 ( Da / Dc =0) 区分开来,因为两者都有间隔 1 天,我将创建额外的分类特征Account Status,其值 Inactive/Active/Closed 分别对应于您的案例 3、2 和 1。