我正在尝试为流失模型(二元分类器)创建一个功能。该特征是几个月的销售增长率的平均值。但如果我只取几个月的销售额平均值,我经常会得到 NAN 或 inf。因为销售额通常为零。我可以将一些数字(例如 0 或平均值)归为缺失的销售额,但我觉得我正在修改模式/下属分布。您将如何为分类模型创建这样的功能?
谢谢!
我正在尝试为流失模型(二元分类器)创建一个功能。该特征是几个月的销售增长率的平均值。但如果我只取几个月的销售额平均值,我经常会得到 NAN 或 inf。因为销售额通常为零。我可以将一些数字(例如 0 或平均值)归为缺失的销售额,但我觉得我正在修改模式/下属分布。您将如何为分类模型创建这样的功能?
谢谢!
您是否要考虑缺失的销售价值?如果您确实想考虑,请将它们归为 0。否则,请确保您的平均值计算不考虑它们,而仅计算其他值的平均值。
这取决于您如何从业务角度定义销售增长。例如,如果您尝试将零销售额视为正常情况来检测销售峰值,您可以使用具有 ok 数字的最近一次填充零、nans 或 infs。