我在特征工程期间遇到问题。寻找一些建议。问题陈述:我有多个客户 3 天的使用数据。有些只有 1 天的使用量,有些是 2 天,有些是 3 天。数据与每天发送的电子邮件数量/添加的联系人数量等有关。
我将此时间序列数据转换为按列,即客户在第 1 天发送的电子邮件数量作为一项功能,客户在第 2 天发送的电子邮件数量作为一项功能,依此类推。但问题是,对于不同的客户,使用可以是递增顺序或递减顺序。
即,示例 1:客户 'A' --> ' 1st 发送的电子邮件数量。天' = 100 。'第 2 天发送的电子邮件数量'=0
示例 2:客户 'B' --> ' 1st 发送的电子邮件数量。天' = 0 。'第 2 天发送的电子邮件数量'=100
示例 3:customer 'C' --> 'number of emails sent on 1st . 天' = 0 。'第 2 天发送的电子邮件数量'=0
示例 4: customer 'D' --> 'number of emails sent on 1st . 天' = 100 。'第 2 天发送的电子邮件数量'=100
在前两种情况下 => 我的新功能将具有“-100”和“100”作为值。我想这有利于区分。但是当新特征值在两种情况下都为“0”时,第 3 列和第 4 列会出现问题,任何人都可以建议一种方法来处理这个问题。
处理此问题的一种方法:
我可以在这些情况下添加“没有变化”,但我对一件事感到困惑。如果我这样做,我将不得不将新特征设为分类,这并不理想,因为其他值将是连续的。
相反,我可以在新功能中使用绝对值,并将趋势表示为“+1”或增加“-1”表示减少“无变化”表示没有变化,如果两个值都为“0”,则表示“0”。那会是一个好方法吗?
最终目标是预测用户是否会继续使用该应用程序。所以它基本上是一个二分类模型。而且我想捕捉甚至使用的规模,即“A 用户每天发送 100 封电子邮件”应该不同于“B 用户每天发送 10000 封电子邮件”