学生
我的目标是预测每月订阅模式业务的流失率。数据集有少量维度:
- 订阅编号
- 开始日期(可以推断“作为订阅者的月份”)
- 价格计划(4 种变体)
- 营销渠道(他们是如何找到我们的,例如 Google、电子邮件、Facebook)
- 取消日期(因变量。如果从未流失,则不为空,如果有值则订阅流失的日期)
有 10k 条记录。
回到课堂上,朴素贝叶斯模型的概念听起来很直观,我想走那条路。但是后来我读到NB在变量很多的地方更好。我只有 5 个,其中一个是因变量)。
然后我想起了决策树。但是这篇文章说决策树“不太适合处理诸如时间之类的连续输入变量(而生存模型可能更适合)”。我的变量“开始日期”可能会抵消这一点,因为理论上是付费客户的几个月可能会影响客户流失(事实上,我们从定期的流失/队列分析中知道这一点)。
目标是预测帐户是否会流失(是/否)(不是实际的流失日期,因此我可能会将变量“取消日期”的数据集编辑为“流失”是或否)。
- 给定我的数据集和目标,我可以使用朴素贝叶斯或决策树吗?一个比另一个更合适吗?我会邀请其他模型建议,但我正在采取我在课堂上学到的婴儿步骤。
- 对于任一模型,我想如何编辑我的数据集?目前我有开始日期,如果他们搅动取消日期。因此,我可以创建一个新字段:“作为付费客户的月份”。这是建议吗?
- 我需要更改因变量的字段吗?它要么是空白的(未流失),要么将具有日期值(已流失)。我应该创建一个值“是”或“否”的新字段“搅动”吗?
我意识到这个问题有点开放式。任何帮助我前进的指示将不胜感激。