建模客户流失 - 机器学习与危险/生存模型

机器算法验证 机器学习 生存 冒险 搅拌
2022-03-03 19:47:32

在对客户流失(或更一般的事件发生)进行建模时,他们选择机器学习或风险模型是否有任何合理性(理论上的、实质性的、统计的)?

2个回答

我认为您的问题可以进一步定义。流失模型的第一个区别是创建

(1) 一个二元(或多类,如果有多种类型的流失)模型来估计客户在未来某个时间点(例如未来 3 个月)内或之前流失的概率

(2) 一个生存型模型,创建每个时期的减员风险估计值(比如下一年的每个月)

两者中哪一个适合您的情况取决于模型的使用。如果您真的想了解随时间推移的损耗风险,并且可能了解(可能随时间变化的)变量如何与时间相互作用,那么生存模型是合适的。对于很多客户模型,我更喜欢为此目的使用离散时间风险模型,因为时间在数据库中通常是离散的,并且风险估计是事件的概率。Cox 回归是另一种流行的选择,但时间被视为连续的(或通过调整关系),但风险在技术上不是概率。

对于大多数客户流失模型,公司有兴趣将 x% 的风险最大的客户作为目标,并且每次启动目标活动时都会对数据库进行评分,因此通常需要二元(或多类)选项。

第二个选择是如何估计模型。您是否使用传统的统计模型,例如二元(多类)模型的逻辑回归或机器学习算法(例如随机森林)。选择基于哪个提供最准确的模型以及需要什么级别的可解释性。对于离散时间风险模型,逻辑回归通常与样条一起使用以引入时间的非线性效应。这也可以通过神经网络和许多其他类型的 ML 算法来完成,因为设置只是使用“人周期”数据集进行监督学习。此外,cox 回归可以与 SAS proc phreg 或 R coxph() 等传统算法相匹配。机器学习算法 GBM 还使用选定的损失函数拟合 cox 回归。如前所述,

首先,我要澄清一下你在哪里区分机器学习和危险模型。据我了解,机器学习文献区分了参数模型和非参数模型(以及其他模型)。

其次,你需要这个模型做什么?是为了科学研究还是别的什么?无论如何,选择合适的模型来描述您的数据首先取决于您需要模型的目的。

对于您的问题:这取决于您对数据生成过程的了解程度。

例如,如果您采用著名的掷硬币或掷骰子,您就会非常了解产生实验预期结果的过程。

在这种情况下,您真的想使用参数(贝叶斯或常客)估计,因为它们将为您提供对未知参数的非常好的估计。此外,这些模型非常容易理解,具有许多优点。

如果你不知道数据的生成过程,或者你不确定,你没有太多的选择,就需要从数据本身来估计描述数据的参数。如果您决定采用这种方法,您必须接受这些模型存在缺陷(取决于具体模型等)

据我了解,您对流程的了解越少,您需要从数据本身估计的越多,这肯定会付出代价。