机器算法验证 - 建模客户流失 - 机器学习与危险/生存模型 - 吾爱随笔录

建模客户流失 - 机器学习与危险/生存模型

机器算法验证机器学习生存冒险搅拌

2022-03-03 19:47:32

在对客户流失（或更一般的事件发生）进行建模时，他们选择机器学习或风险模型是否有任何合理性（理论上的、实质性的、统计的）？

2个回答

我认为您的问题可以进一步定义。流失模型的第一个区别是创建

(1) 一个二元（或多类，如果有多种类型的流失）模型来估计客户在未来某个时间点（例如未来 3 个月）内或之前流失的概率

(2) 一个生存型模型，创建每个时期的减员风险估计值（比如下一年的每个月）

两者中哪一个适合您的情况取决于模型的使用。如果您真的想了解随时间推移的损耗风险，并且可能了解（可能随时间变化的）变量如何与时间相互作用，那么生存模型是合适的。对于很多客户模型，我更喜欢为此目的使用离散时间风险模型，因为时间在数据库中通常是离散的，并且风险估计是事件的概率。Cox 回归是另一种流行的选择，但时间被视为连续的（或通过调整关系），但风险在技术上不是概率。

对于大多数客户流失模型，公司有兴趣将 x% 的风险最大的客户作为目标，并且每次启动目标活动时都会对数据库进行评分，因此通常需要二元（或多类）选项。

第二个选择是如何估计模型。您是否使用传统的统计模型，例如二元（多类）模型的逻辑回归或机器学习算法（例如随机森林）。选择基于哪个提供最准确的模型以及需要什么级别的可解释性。对于离散时间风险模型，逻辑回归通常与样条一起使用以引入时间的非线性效应。这也可以通过神经网络和许多其他类型的 ML 算法来完成，因为设置只是使用“人周期”数据集进行监督学习。此外，cox 回归可以与 SAS proc phreg 或 R coxph() 等传统算法相匹配。机器学习算法 GBM 还使用选定的损失函数拟合 cox 回归。如前所述，

首先，我要澄清一下你在哪里区分机器学习和危险模型。据我了解，机器学习文献区分了参数模型和非参数模型（以及其他模型）。

其次，你需要这个模型做什么？是为了科学研究还是别的什么？无论如何，选择合适的模型来描述您的数据首先取决于您需要模型的目的。

对于您的问题：这取决于您对数据生成过程的了解程度。

例如，如果您采用著名的掷硬币或掷骰子，您就会非常了解产生实验预期结果的过程。

在这种情况下，您真的想使用参数（贝叶斯或常客）估计，因为它们将为您提供对未知参数的非常好的估计。此外，这些模型非常容易理解，具有许多优点。

如果你不知道数据的生成过程，或者你不确定，你没有太多的选择，就需要从数据本身来估计描述数据的参数。如果您决定采用这种方法，您必须接受这些模型存在缺陷（取决于具体模型等）

据我了解，您对流程的了解越少，您需要从数据本身估计的越多，这肯定会付出代价。

其它你可能感兴趣的问题

上一篇在因子分析中计算二元变量的 Pearson 相关性（而不是四色相关性）有什么危险？下一篇为什么用卡尔曼滤波器进行 ARMA 模型的预测