我正在构建一个模型来预测网站的用户流失率,其中我有所有用户的数据,包括过去和现在。
我可以建立一个模型,只使用那些已经离开的用户,但是我会留下 2/3 的总用户数未使用。
从概念的角度来看,有没有一种好方法可以将来自这些用户的数据合并到模型中?
我正在构建一个模型来预测网站的用户流失率,其中我有所有用户的数据,包括过去和现在。
我可以建立一个模型,只使用那些已经离开的用户,但是我会留下 2/3 的总用户数未使用。
从概念的角度来看,有没有一种好方法可以将来自这些用户的数据合并到模型中?
这种设置在可靠性、医疗保健和死亡率方面很常见。统计分析方法称为生存分析。所有用户都根据他们的开始日期(或周或月)进行编码。您使用经验数据来估计生存函数,即背叛时间晚于某个指定时间t的概率。
您的基线模型将估计所有用户的生存函数。然后,根据您的基线生存函数,您可以进行更复杂的建模来估计哪些因素或行为可能预测背叛(流失)。基本上,任何具有预测性的模型都会产生显着低于基线的生存概率。
还有另一种方法涉及尝试识别预示背叛的前兆事件模式或用户行为模式。任何给定的事件/行为模式都可能发生在背叛的用户或留下的用户身上。对于此分析,您可能需要审查您的数据以仅包括在最短时间段内成为成员的用户。可以使用您对生存函数的估计来估计最小时间段,甚至可以对已经叛逃的用户的成员期限分布进行简单的直方图分析。
在 YouTube 上查看此视频https://www.youtube.com/watch?v=RHsO10q7e2Y 这是关于流失预测的基本模型(您仍然可以对其进行优化)。使用所有可用的记录(流失的和未流失的)。
它仅在评估性能时引入子采样。您还可以在训练集中引入子采样,具体取决于您使用的机器学习算法。
希望这可以帮助
罗莎莉亚