是否可以从概念上理解帕累托/nbd 模型?

机器算法验证 分布 伽马分布 营销 帕累托分布
2022-01-27 02:34:06

我正在学习使用使用 Pareto/NBD 模型的 BTYD 包来预测客户何时会回来。然而,关于这个模型的所有文献都充满了数学,并且似乎没有对该模型的工作原理进行简单/概念性的解释。是否可以理解非数学家的 Pareto/NBD 模型?我已经阅读了Fader的这篇著名论文。Pareto/NBD 模型做出以下假设:

一世。在活跃时,客户在长度为 t 的时间段内进行的交易数量以交易率 λ 分布泊松。

ii. 跨客户交易率的异质性遵循具有形状参数 r 和尺度参数 α 的伽马分布。

iii. 每个客户都有一个未观察到的“生命周期”,长度为 τ。客户变得不活跃的这一点呈指数分布,退出率 µ。

iv) 客户辍学率的异质性遵循具有形状参数 s 和尺度参数 β 的伽马分布。

v. 交易率 λ 和退出率 μ 因客户而异。”

我不理解假设(ii)、(iii)和(iv)的(直觉)基本原理。为什么只有这些发行版,为什么没有其他发行版?

BG/NBD 模型假设还包括:

i.) 在活跃时,客户进行的交易数量遵循交易率 λ 的泊松过程。这相当于假设事务之间的时间以事务率 λ 呈指数分布

ii) λ 中的异质性服从伽马分布

iii) 在任何交易之后,客户以概率 p 变得不活跃。因此,客户“退出”的点根据 pmf 的(移动的)几何分布分布在交易中

iv) p 的异质性服从 beta 分布

假设 (ii)、(iii) 和 (iv) 的(直觉)合理性也不明显。

我将不胜感激任何帮助。谢谢。

1个回答

想象一下,你是一家花店新任命的经理。你有去年顾客的记录——他们购物的频率以及距离他们上次访问的时间。您想知道列出的客户今年可能带来多少业务。有几点需要考虑:

[假设(ii)] 顾客有不同的购物习惯。

有些人一直喜欢鲜花,而有些人只在特殊场合才喜欢。分配交易率更有意义λ,而不是假设单个λ解释每个人的行为。

分布需要有很少的参数(你不一定有很多数据),相当灵活(你可能不是读心术的创业大师,也不了解购物习惯),并采取正实数中的值。Gamma 分布符合所有这些条件,并且经过充分研究并且相对容易使用。它通常用作不同设置中正参数的先验。

[假设 (iii)] 您可能已经失去了名单上的一些客户。

如果安德里亚去年每个月大约每月买一次鲜花,那么她今年会回来是一个相当安全的赌注。如果本过去每周都买花,但他已经好几个月没来了,那么他可能找到了另一家花店。在制定未来的商业计划时,您可能希望依靠 Andrea 而不是 Ben。

客户不会告诉您他们何时继续前进,这就是两种模型的“未观察到的生命周期”假设起作用的地方。想象一下第三个客户,Cary。Pareto/NBD 和 BG/NBD 模型为您提供了两种不同的方式来考虑 Cary 永远退出商店。

对于 Pareto/NBD 案例,想象在任何时间点,Cary 都有可能遇到比您的商店更好的商店。这种持续的无限小风险为您提供了指数级的生命周期——自 Cary 上次访问以来的时间越长,他接触其他(可能更好的)花店的时间就越长。

BG/NBD 的情况有点做作。每次 Cary 到您的商店,他都会承诺购买一些鲜花。在浏览的过程中,他会考虑自上次访问以来价格、质量和品种的变化,这最终会决定是下次再来,还是寻找另一家商店。因此,Cary 不会一直处于风险之中,而是有一定的概率 p 会在每次购买后决定离开。

[假设 (iv)] 并非所有客户都对您的商店有同样的承诺。

一些顾客是常客,只有死亡——或价格大幅上涨——才会迫使他们离开。其他人可能喜欢探索,为了街对面的新潮花店,他们会很高兴地离开你。与所有客户的单一退出率相比,分配退出率(或 BG/NBD 案例中的概率)更有意义。

这与购物习惯非常相似。我们追求的是一个灵活的、完善的、参数很少的分布。在 Pareto/NBD 案例中,我们使用 Gamma,因为速率μ是正实数。在 BG/NBD 案例中,我们使用 Beta,它是参数的标准先验(0;1).

我希望这有帮助。如果你还没有看过原始论文(Schmittlein et al., 1987)——他们在那里经历了一些直觉。