Cox 模型与逻辑回归

机器算法验证 物流 生存 cox模型
2022-02-07 23:06:29

假设我们遇到了以下问题:

预测未来 3 个月内哪些客户最有可能停止在我们的商店购买。
对于每个客户,我们知道他们开始在我们的商店购买的月份,此外,我们在每月汇总中还有许多行为特征。“最年长”的客户已经购买了 50 个月; ( )表示客户开始购买的时间可以假设客户端的数量非常大。如果客户停止购买三个月然后回来,那么他将被视为新客户,因此事件(停止购买)只能发生一次。tt[0,50]

我想到了两个解决方案:

逻辑回归- 对于每个客户和每个月(可能是最近的 3 个月除外),我们可以判断客户是否停止购买,因此我们可以对每个客户和每个月进行一次观察进行滚动样本。我们可以使用自开始以来的月数作为分类变量来获得一些等价的基本风险函数。

扩展的 Cox 模型- 这个问题也可以使用扩展的 Cox 模型来建模。看来这个问题更适合生存分析。

问题:生存分析在类似问题中的优势是什么?生存分析是出于某种原因发明的,所以一定有一些严重的优势。

我在生存分析方面的知识不是很深,我认为 Cox 模型的大多数潜在优势也可以使用逻辑回归来实现。

  • 和分层变量 的交互作用可以获得分层 Cox 模型的等价物。t
  • 交互 Cox 模型可以通过将种群划分为几个子种群并估计每个子种群的 LR 来获得。

我看到的唯一优势是 Cox 模型更灵活;例如,我们可以很容易地计算出客户在 6 个月内停止购买的概率。

3个回答

Cox 模型的问题在于它无法预测任何东西。Cox 模型中的“截距”(基线风险函数)从未被实际估计过。逻辑回归可用于预测某些事件的风险或概率,在这种情况下:受试者是否在特定月份进来购买东西。

普通逻辑回归背后假设的问题在于,您将每个人月的观察视为独立的,无论它是同一个人还是发生观察的同一个月。这可能很危险,因为有些物品是在两个月的间隔内购买的,因此连续的逐月观察是相关的。或者,客户可以通过连续的人的好或坏经历来保留或失去,按月观察呈相关。

我认为这个预测问题的一个好的开始是采用预测方法,我们可以使用以前的信息来预测下个月的业务。这个问题的一个简单开始是调整滞后效应,或一个指标是否在上个月到达作为他们是否可能在本月到达的预测指标

Tj是从客户端的时间过去的时间j开始购买,直到他停止。生存分析允许计算概率,如Pr(Tj>3),即客户购买至少个月的概率。j3

生存分析考虑到每个客户都有自己进入研究的时间这一事实。因此,跟进期因客户而异的事实不是问题。

此外,如果客户在研究期间没有停止购买,则记录最后一次随访时间,并将数据视为右删失。生存分析技术专门设计用于适当地处理审查。j


备注:这里有一篇论文表明,在某些约束下,逻辑模型和 Cox 模型都是相互关联的。

营销文献在这里或类似的建议帕累托/ NBD。您基本上假设购买(在他们购买时)遵循负二项分布。但是您必须模拟客户停止的时间。那是另一部分。

Pete Fader 和 Bruce Hardie 以及 Abe 都有一些关于此的论文。

Pareto/NBD 有几种更简单的方法,即使只计算 Fader 和 Hardie 的各种论文。不要使用更简单的方法,即假设停止的概率在每个时间点都是恒定的——这意味着你的重度客户更有可能更快地退出。这是一个更容易拟合的模型,但错误。

我已经有一段时间不适合其中之一了;抱歉有点不具体。

这是对 Abe 论文的参考,该论文将这个问题重铸为分层贝叶斯。. 如果我再次在这个领域工作,我想我会测试这种方法。