机器算法验证 - 在员工流失模型的背景下，提升和增益图说明了什么 - 吾爱随笔录

在员工流失模型的背景下，提升和增益图说明了什么

机器算法验证造型预测模型

2022-03-18 18:10:33

因此，我试图进一步了解提升和增益图表，因为它适用于我的员工流动模型（即在 SPSS Modeler 中使用 CHAID）。对于我的数据，这意味着预测自愿离开公司的人数。

我已经查看了以下参考资料并了解了有关解释的基础知识：x 和 y 轴上绘制的内容以及您正在寻找的理想曲线。我什至练习在 Excel 中构建自己的收益和提升图表。

但到目前为止，我看到的所有例子都是针对直邮活动的。现在我想知道这对我的数据意味着什么。这是否仅仅意味着，在增益图表的情况下，如果我对前 10% 的数据进行抽样，我可以预期 40% 的术语，而对前 60% 的数据进行抽样得到 80% 的术语？（请假设 40% 和 60% 是值）。如果是这样，那么我应该从中删除什么意义，因为我真的没有在我的营业额模型的背景下得到它？

参考：

数据挖掘中的提升测量

什么是电梯图表

http://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html

1个回答

有时它有助于描绘这种分析的目标以及公司在没有它的情况下可以做什么。假设营业额数据所属的公司想要针对（可能）高流动率采取措施。我可以想象两种可能的行动

找出是什么驱使人们离开并解决这个问题（没有足够的医疗保健？没有团队精神？）
找到正在考虑离开的员工并与他们交谈，找出是什么促使他们专门为他们解决问题。

那么这有什么关系呢？

提升图对于第二个用例非常重要。想象一下，当一家公司决定投资时与员工一对一交谈但没有模型时，他们会做什么？唯一的选择是与每个人交谈，或者在固定大小的随机样本中与每个人交谈。与所有人交谈，尽管可以识别所有潜在的离职人员，但成本太高了。但是，当只选择一个随机样本与之交谈时，只有一小部分潜在离职者被识别出来，同时仍然花费大量资金。在这两种情况下，每次休假预防成本比率都很高。

但是当存在一个好的模型时，公司可以决定只与那些最有可能离开的人（根据模型得分最高的人）交谈，从而识别出更多的潜在离职者，从而优化每人成本-请假预防。

再看看这里的前两个表：http ://www2.cs.uregina.ca/~dbd/cs831/notes/lift_chart/lift_chart.html 。假设“客户”=“员工”和“积极的受访者”=“潜在离职者”（请参阅下面的数据）。

如果公司决定只能花足够的钱与 10000 名员工交谈，它将确定

$\frac{20000}{100000}*10000=2000$ 没有模型的离开者被识别
$\frac{6000}{10000}*10000=6000$ 离去者被模型识别（根据模型分数只选择前 10000 个）

意思是

因子的改进，如提升图中的点 (10%,3) 所示。 $\frac{6000}{2000}=3$
20000 总离职者中有 6000 人已确定，即 30%，在增益图中如图所示为 (10%,30%) 。这里的基线只有 10%，因为通过对 10000 名员工进行随机抽样，只有的所有潜在离职人员被识别. $\frac{10000 * (20000/100000)}{20000}=\frac{10000}{100000}=0.1$

两种情况下的 x 轴都显示了已联系员工的百分比，在此具体示例中为 10%。

附录

用于使这个问题独立于链接腐烂的数据。

总价

与已确定离职人员联系的员工总数
100000 20000

以 10000 人为单位联系员工时模型的有效性

与已确定离职人员联系的员工总数
10000 6000
20000 10000
30000 13000
40000 15800
50000 17000
60000 18000
70000 18800
80000 19400
90000 19800
100000 20000

其它你可能感兴趣的问题

上一篇为什么使用 relevel 时模型会发生变化？下一篇将两个变量折叠（组合）为一个以进行分析