伙计们!
我有一个包含一堆客户行为特征的数据集,输出为“流失”/“未流失”。我应用了一个简单的随机森林分类器并获得了不错的性能。
有了这个,我可以预测给定用户是否会流失。但我需要了解流失用户的模式和非流失用户的模式。我怎么能做到这一点?(我可以提出类似“通常,流失的用户会做这个,那个,那个”之类的内容)
PS:不需要完整的解释,如果你能给我一些学习的方向,我会很高兴,这样我就可以掌握这些知识
提前谢谢了!
伙计们!
我有一个包含一堆客户行为特征的数据集,输出为“流失”/“未流失”。我应用了一个简单的随机森林分类器并获得了不错的性能。
有了这个,我可以预测给定用户是否会流失。但我需要了解流失用户的模式和非流失用户的模式。我怎么能做到这一点?(我可以提出类似“通常,流失的用户会做这个,那个,那个”之类的内容)
PS:不需要完整的解释,如果你能给我一些学习的方向,我会很高兴,这样我就可以掌握这些知识
提前谢谢了!
几个不错的选择是查看 RF 模型的特征/变量重要性图。或者,根据模型,您可以尝试从模型中提取几个单独的树并检查它们。但是,这些方法不是确定的。即确定哪些变量是流失的强预测因子并不意味着它们对流失有因果影响,并且单个树可能存在偏差,并且不能代表 RF 模型呈现的聚合输出。要确定因果关系,您可以使用这些方法作为设计测试的起点。