我手头有一个业务问题,即预测用户是否会在 6 个月内重新访问该网站。我需要主要了解使用户返回的因素是什么,还需要就如何使新用户返回网站提供业务建议。我最初的想法是做逻辑回归。最近,我读到了生存分析。我想知道我是否可以对这个问题使用生存分析。另外,我的数据集有 20k 个用户;每个用户有多个交易;没有给出目标变量我将数据集聚合到每个用户的一条记录中,并进行了一些特征工程以提出目标变量。如果我想在这个问题中使用生存分析,我应该只考虑每个用户的最后一笔交易还是应该使用聚合数据集?
我可以应用生存分析来预测用户是否会重新访问该网站?
数据挖掘
预测建模
搅拌
聚合
生存分析
2022-02-10 20:22:24
1个回答
如果你想使用生存分析(可以更灵活和有见地),我会推荐这个包和这个很棒的教程。因此,您很快就会得到每个客户的“活着的概率”。
如果你想使用逻辑回归,我认为它更棘手。为什么我这么认为 - 就像任何其他流失问题一样,很难正确定义它。定义取决于您的任务以及模型结果的使用位置。假设流失是特定数量的不活动,例如 30 天。您可以对如何找到此号码进行初步分析。只需选择一个特定日期(您可以多次执行)并检查进行下一次交易的人的百分比。重要的是 - 所有用户的双方时间段应该相同:
- 如果是新用户,他不可能长时间不活动,对吧?
- 如果它是数据集中的最后一个日期(例如昨天) - 并非所有用户都无法在 1 天内执行交易。你会得到高流失率。所以要注意约会。
因此,您需要从您的数据中了解 - 对于普通用户而言,哪些不活动是“正常的”并将其定义为 N。之后,您可以将用户二进制标记为“如果不活动 > N 则“搅动 (1)”,否则“未搅动 ( 0)""。您可以将此标签与任何分类模型一起使用。
其它你可能感兴趣的问题